|
重庆大学学报 2007
一种新型的文本无监督特征选择方法DOI: 10.11835/j.issn.1000-582X.2007.06.019 Keywords: 自然语言处理,特征选择,文档频数,单词权,单词熵 Abstract: 结合文档频数DF(DocumentFrequency)和特征相似度FS(FeatureSimilarity)方法,提出一种新的无监督特征选择方法DFFS.该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征.采用K-均值方法,对比DFFS方法与其他3种常用特征选择方法(DF,TC,TS)的聚类性能.实验一:当特征数量由6000减少到1047时,DF方法的聚类性能急剧下降,而DFFS方法则有提高,甚至当特征数量进一步减少到350时,DFFS方法也没有下降.实验二:在保持10%~2%的特征时,DFFS方法优于其他3种方法,特别是在只保留2%的特征时,DFFS方法的明显优于其他方法.
|