|
计算机科学 2013
一种基于互信息的模糊粗糙分类特征基因快速选取方法Keywords: 特征选取,模糊粗糙集,互信息,基因表达谱数据集中图法分类号tp18文献标识码a Abstract: 依据基因表达谱建立有效肿瘤分类模型的关键在于准确找出决定样本类别的一组特征基因。粗糙集理论已成功应用于肿瘤分类特征基因选取中。然而,粗糙集方法处理连续值的基因表达谱数据集所必需的离散化过程会使得部分信息丢失,对所选取的特征基因的分类精度造成一定影响。因此,曾提出基于互信息的模糊粗糙集基因表达谱数据集特征基因的选取算法。然而,该算法计算代价较高,当所选取的基因数较多时难以实现。为此,对该算法进行了改进,从最大相关性和最重要性(最小冗余)两方面对互信息进行了近似替代计算,大大降低了算法的复杂度,提高了算法的效率。以急性白血病亚型(leukemia)、直肠癌(colon)和乳腺癌(breast)分类特征基因选取为例进行实验,然后分别采用1nn和svm分类器进行特征基因分类精度检验,结果证实了新方法的可行性和有效性。
|