通过传统的生物实验方法来确定凋亡蛋白的位置既费时又费力,难以满足现在的科研需求。因此,在汉斯出版社《计算机科学与应用》期刊中,有学者开始借助计算机及其相关知识开发了许多有效且可靠的计算方法来替代或协助传统生物实验。
近年来,大量机器学习方法被开发用于识别不同的凋亡蛋白亚细胞位置,通常包括三个步骤:第一,从凋亡蛋白序列中提取包含不同种类蛋白质的信息作为凋亡蛋白亚细胞定位的特征向量,如信息增益(Incrementof Diversity)、位置特异性评分矩阵(Position Specific Scoring Matrix,PS)、伪氨基酸组成(Pseudo Amino Acid Composition,PseAAC)、氨基酸组成(Amino Acid Composition,AAC)和二肽组成(Dipeptide Composition)。第二,将得到的特征向量输入到分类器中进行预测分类,在凋亡蛋白亚细胞定位中使用的分类器有协变判别函数法、模糊k-近邻、支持向量机(Support Vector Machin,SVM)、集成分类器等。第三,通过Jackknife检验、K折交叉验证和独立集检验对分类器性能进行评估,以证明所提出方法的可靠性。这些计算方法的使用可以大大加快凋亡蛋白亚细胞位置的研究。这些方法都是基于序列提取得到的特征,好的特征提取方法对预测凋亡蛋白亚细胞位置是至关重要的,它能帮助我们提高预测准确率。
在本文中,为了能够更加准确的对凋亡蛋白亚细胞位置进行定位,我们考虑了凋亡蛋白序列的进化信息和序列信息。我们首先从序列中获取含有进化信息的PS,然后以一个分割比例将PS矩阵按行分割为两个子矩阵,并以此构建一个新的特征,我们称之为分割PS(Segmentation PS,SePS)。接下来我们对凋亡蛋白序列引入7种物化性质,并将此方法得到的特征与SePS特征进行线性融合。最后,我们将融合后的特征输入到含有四种不同核函数的支持向量机中,并通过Jackknife检验验证该方法的有效性。
首先,基于矩阵分块的思想从PS中提取Se PS特征,然后将Se PS和7种理化性质得到的特征融合构建凋亡蛋白序列的特征表示方法,通过实验结果可知,对PS进行平均分割比不分割或其他的分割比例的预测效果更好。最后,ZW225和ZD98两个数据集在RBF核的SVM分类器上分别进行预测分类,分别得到了94.6%和96.9%的总体准确率,这已高于大多数已有的凋亡蛋白亚细胞定位算法,这表明我们所提出的方法是可行的。鉴于我们使用的数据集为不平衡数据集,数据集类中数量存在较大差异,因此在下一步研究中,我们将考虑对数据集进行采样处理或构建一个平衡的数据集来对凋亡蛋白进行预测研究。