|
生物化学与生物物理进展 2018
基于间隔二肽组分和递归特征消除法的DNA结合蛋白的鉴定Keywords: DNA结合蛋白,间隔二肽组分,位置特异性得分矩阵,递归特征消除法,支持向量机分类器 Abstract: DNA结合蛋白(DNA-binding proteins,DBPs)的鉴定在原核和真核生物的基因和蛋白质功能注释研究中具有十分重要的意义.本研究首次运用间隔二肽组分(gapped-dipeptide composition,GapDPC)结合递归特征消除法(recursive feature elimination,RFE)鉴定DBPs.首先获得待测蛋白质氨基酸序列的位置特异性得分矩阵(position specific scoring matrix,PSSM),在此基础上提取蛋白质的GapDPC特征,通过RFE法选择最优特征,然后利用支持向量机(support vector machine,SVM)作为分类器,在蛋白质序列数据集PDB396和LB1068中进行夹克刀交叉验证(jackknife cross validation test).研究结果显示,基于PDB396和LB1068数据集,DBPs预测的准确率、Matthews相关系数、敏感性和特异性分别达到93.43%、0.86、89.04%和96.00%,以及86.33%、0.73、86.49%和86.18%,明显优于文献报道中的相关方法,为DBPs的鉴定提供了新的模型
|