DNA结合蛋白是一类特殊的蛋白质,它能够与DNA相结合,并通过两者之间相互作用,实现DNA转录、复 制等功能,进而对生物体的生命活动进行调控,因此对DNA结合蛋白的识别研究,能够帮助人们更好地理解核酸和蛋白质之间相互作用的原理,进而帮助医学工作者确定疾病产生的原因及内在机理,并找到相应的靶点和基因片段,这对生物制药、精准医疗等相关领域的发展有着深远的意义。
随着生物测序技术的快速发展,蛋白质序列数目急剧增加。传统的物化实验方法耗时极长且代价高昂,因此大量的DNA结合蛋白计算方法被提出和改进。这类方法主要从提取蛋白质序列相关信息出发,建立DNA结合蛋白的识别预测模型。在过去十几年,出现了大量识别DNA结合蛋白的计算方法,在汉斯出版社《计算生物学》期刊中,有论文将从特征提取的角度出发,对这些方法进行总结,并选择其中九种典型的计算方法进行实证分析,确定这些方法的实际结果,为DNA结合蛋白分类算法研究者提供新的思路和有价值的参考。
目前根据研究人员使用信息的不同可以将方法大致分为两类:一类是基于蛋白质结构信息的方法,另一类是基于蛋白质序列信息的方法。
基于结构信息的方法从蛋白质的二级结构和三维空间结构出发,将目标蛋白质与已有的蛋白质结构模板进行对比,提取相关信息,实现对蛋白质的识别与预测。
已有大量的实验结果表明,蛋白质的一级结构(序列排列顺序)相似,其功能也很相似,所以目前更多的方法使用序列信息预测蛋白质的功能,并在拥有海量序列数据的后基因时代得到了很好的发展。在DNA结合蛋白识别模型中,基于序列的特征提取方法大致可分为三类:基于氨基酸组成的方法、基于氨基酸物化性质的方法以及基于蛋白质序列进化信息的方法。
基于结构信息的特征提取方法由于应用条件的苛刻性,很难在后基因时代推广,所以现阶段的方法更多注重从蛋白质序列中挖掘内在的生物信息。在三类基于蛋白质序列信息的提取方法中,基于蛋白质序列进化信息的方法综合性能优于氨基酸组成和氨基酸理化性质的方法,Local_DPP方法在训练集和测试集上的综合性能最好。PseAAC方法组合了氨基酸组成信息和理化性质,其特征仅有25维,但在分类准确率上超过了70%,所以在组合特征时可以优先考虑使用。
总的来说,虽然目前已提出很多基于序列信息的DNA结合蛋白预测方法,但其预测性能仍不能令人满意。蛋白质序列特征提取方法是蛋白质结构和功能识别方法性能提升的瓶颈,如何有效地表示蛋白质序列仍需要进一步的研究。