|
生物工程学报 2008
基于氨基酸组成分布的嗜热和嗜冷蛋白随机森林分类模型, PP. 302-308 Keywords: 随机森林,氨基酸组成分布,嗜热和嗜冷蛋白,roc曲线 Abstract: 文献报道采用氨基酸组成分布提取特征值能有效提高预测分类精度,本文采用该方法提取特征值,使用一种新的组合分类器——随机森林,从蛋白质一级结构对嗜热和嗜冷蛋白进行分类。通过10倍交叉验证和独立样本测试两种方法检测,结果表明:当分段数量为1时,其精度最优,分别为92.9%和90.2%,暗示使用基于氨基酸组成分布提取特征值在该算法中并不能有效提高识别精度,这与报道结果不符,而该提取方法在svm中却能适当提高识别精度;当引入6个新变量后,其精度分别提高到93.2%和92.2%,roc曲线下面积分别为0.9771和0.9696,优于其它组合分类器。
|