%0 Journal Article %T 基于特征分布的半监督分类 %J 北京工业大学学报 %D 2012 %X 为了避免倾向于高频词的信息增益(informationgain,IG)方法忽略各类别间的相似性特点,提出了一种基于特征分布的选择方法对IG进行修正,使真正拥有高类别区分信息的特征项被保留.同时,对最大期望值(expectationmaximization,EM)算法的效率低下问题加以改进,将拥有较高后验类别概率的未标注文档逐步从未标注文档集转至已标注文档集,有效减少算法迭代次数.测试结果表明,基于特征分布的半监督学习方法在Reuter-21578和Epinion.com两个不同特点的数据集上都取得了较好的分类效果和性能. %K 半监督分类 %K 特征分布 %K 类相似性 %U http://www.bjgd.cbpt.cnki.net/WKA/WebPublication/paperDigest.aspx?paperID=5331DFFE-D9F2-4051-9C37-21F00755B19B