1 论文标题:多源特征结合机器学习算法预测钾离子(K+)与钠离子(Na+)的结合位点
2 作者信息:刘 玮*, 冯永娥#:内蒙古农业大学理学院,内蒙古 呼和浩特
3 出处和链接:刘玮, 冯永娥. 多源特征结合机器学习算法预测钾离子(K+)与钠离子(Na+)的结合位点[J]. 生物物理学, 2025, 13(3): 27-44.
https://doi.org/10.12677/biphy.2025.1330034 摘要:钾离子(K+)与钠离子(Na+)是生物体内重要的电解质,在维持细胞渗透压平衡、调节神经信号传导以及参与酶促反应调控中发挥关键作用。准确识别蛋白质中的金属离子结合位点,对于深入理解离子调控机制及相关疾病的分子基础具有重要意义。本文基于BioLiP数据库获取K+和Na+结合蛋白序列,利用CD-HIT进行序列去冗余处理,并按5:1的比例划分为训练集和测试集。采用OTEENN算法对训练集进行类别平衡处理,从序列、结构与能量三个层面共提取9类特征(PS、氨基酸组分、密 子频率、相对可及表面积、SASA-RASA、疏水性、二级结构、结合能和图能量),并分别使用7种机器学习算法(Logistic Regression, SVM, KNN, Random Forest, Gradient Boosting, XGBoost, LightGBM)进行模型构建与性能评估。结果表明,单特征PS在K+和Na+结合位点的预测中均表现最优,其中K+结合位点预测的敏感性Sn = 100%,特异性Sp = 85.3%,总精度Acc = 85.6%,AUC值达到0.984;Na+结合位点预测的敏感性Sn = 100%,特异性Sp = 86.5%,总精度Acc = 86.6%,AUC值达到0.978。鉴于梯度提升算法在处理非线性关系的能力较强,同时对特征交互的捕捉更高效等优点,随后在LightGBM算法下,采用最优特征PS与其他8种特征作逐一融合,结果发现:特征融合后K+和Na+结合位点的预测精度的各项指标都有一定的提高;同时也发现特征融合不是越多越好,部分特征间存在一定信息冗余,故合理的特征选择与融合策略对模型优化至关重要。本研究对于离子通道蛋白功能解析,靶向药物研发等方面具有一定的生物学意义。