%0 Journal Article %T 一种新型的文本无监督特征选择方法 %A 何中市 %A 徐浙君 %J 重庆大学学报 %D 2007 %R 10.11835/j.issn.1000-582X.2007.06.019 %X 结合文档频数DF(DocumentFrequency)和特征相似度FS(FeatureSimilarity)方法,提出一种新的无监督特征选择方法DFFS.该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征.采用K-均值方法,对比DFFS方法与其他3种常用特征选择方法(DF,TC,TS)的聚类性能.实验一:当特征数量由6000减少到1047时,DF方法的聚类性能急剧下降,而DFFS方法则有提高,甚至当特征数量进一步减少到350时,DFFS方法也没有下降.实验二:在保持10%~2%的特征时,DFFS方法优于其他3种方法,特别是在只保留2%的特征时,DFFS方法的明显优于其他方法. %K 自然语言处理 %K 特征选择 %K 文档频数 %K 单词权 %K 单词熵 %U http://qks.cqu.edu.cn/cqdxzrcn/ch/reader/view_abstract.aspx?file_no=200706216&flag=1