级别: 硕士生
UID: 129969
精华: 0
发帖: 1818
威望: -5 点
积分转换
愚愚币: 124 YYB
在线充值
贡献值: 0 点
在线时间: 2485(小时)
注册时间: 2019-06-26
最后登录: 2024-11-20
楼主  发表于: 2020-12-03 09:57

 DNA结合蛋白特征提取算法综述

DNA结合蛋白是一类特殊的蛋白质,它能够与DNA相结合,并通过两者之间相互作用,实现DNA转录、复 制等功能,进而对生物体的生命活动进行调控,因此对DNA结合蛋白的识别研究,能够帮助人们更好地理解核酸和蛋白质之间相互作用的原理,进而帮助医学工作者确定疾病产生的原因及内在机理,并找到相应的靶点和基因片段,这对生物制药、精准医疗等相关领域的发展有着深远的意义。

随着生物测序技术的快速发展,蛋白质序列数目急剧增加。传统的物化实验方法耗时极长且代价高昂,因此大量的DNA结合蛋白计算方法被提出和改进。这类方法主要从提取蛋白质序列相关信息出发,建立DNA结合蛋白的识别预测模型。在过去十几年,出现了大量识别DNA结合蛋白的计算方法,在汉斯出版社《计算生物学》期刊中,有论文将从特征提取的角度出发,对这些方法进行总结,并选择其中九种典型的计算方法进行实证分析,确定这些方法的实际结果,为DNA结合蛋白分类算法研究者提供新的思路和有价值的参考。

目前根据研究人员使用信息的不同可以将方法大致分为两类:一类是基于蛋白质结构信息的方法,另一类是基于蛋白质序列信息的方法。

基于结构信息的方法从蛋白质的二级结构和三维空间结构出发,将目标蛋白质与已有的蛋白质结构模板进行对比,提取相关信息,实现对蛋白质的识别与预测。

已有大量的实验结果表明,蛋白质的一级结构(序列排列顺序)相似,其功能也很相似,所以目前更多的方法使用序列信息预测蛋白质的功能,并在拥有海量序列数据的后基因时代得到了很好的发展。在DNA结合蛋白识别模型中,基于序列的特征提取方法大致可分为三类:基于氨基酸组成的方法、基于氨基酸物化性质的方法以及基于蛋白质序列进化信息的方法。

基于结构信息的特征提取方法由于应用条件的苛刻性,很难在后基因时代推广,所以现阶段的方法更多注重从蛋白质序列中挖掘内在的生物信息。在三类基于蛋白质序列信息的提取方法中,基于蛋白质序列进化信息的方法综合性能优于氨基酸组成和氨基酸理化性质的方法,Local_DPP方法在训练集和测试集上的综合性能最好。PseAAC方法组合了氨基酸组成信息和理化性质,其特征仅有25维,但在分类准确率上超过了70%,所以在组合特征时可以优先考虑使用。

总的来说,虽然目前已提出很多基于序列信息的DNA结合蛋白预测方法,但其预测性能仍不能令人满意。蛋白质序列特征提取方法是蛋白质结构和功能识别方法性能提升的瓶颈,如何有效地表示蛋白质序列仍需要进一步的研究。
分享:

愚愚学园属于纯学术、非经营性专业网站,无任何商业性质,大家出于学习和科研目的进行交流讨论。

如有涉侵犯著作权人的版权等信息,请及时来信告知,我们将立刻从网站上删除,并向所有持版权者致最深歉意,谢谢。