|
计算机科学 2015
两种基于树结构的基因选择算法DOI: 10.11896/j.issn.1002-137X.2015.07.053 Abstract: 癌症诊断是生物信息学领域的重要课题,其中从基因表达数据中选择与癌症相关的基因子集是癌症诊断的关键。随机森林是近年来很热门的算法,它能够评估分类中特征的重要性(该方法简称为pbm)。受此启发,提出了两种基于树结构的基因选择方法fbm和abm,分别以树结构中特征出现的频率和重要性打分的平均值作为属性重要性的指标。数值实验中,使用提出的方法选取特征子集,并建立随机森林分类器,通过auc结果评估基因选择的优劣。实验结果表明,当pbm的auc值不低于0.900时,其在leukemia数据集上至少需要26个基因,在coloncancer数据集上至少需要48个基因。而在仅选取前10个基因时,fbm和abm在leukemia数据集的auc值均达到0.989,在coloncancer数据集的auc值达到0.900。此外,与其它典型的基因选择方法mrmr和ecrp等相比,提出的方法也有较高的精度,这对癌症的精确诊断和及早治疗具有重要的现实意义。
|