全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

一种新型的文本无监督特征选择方法

DOI: 10.11835/j.issn.1000-582X.2007.06.019

Keywords: 自然语言处理,特征选择,文档频数,单词权,单词熵

Full-Text   Cite this paper   Add to My Lib

Abstract:

结合文档频数DF(DocumentFrequency)和特征相似度FS(FeatureSimilarity)方法,提出一种新的无监督特征选择方法DFFS.该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征.采用K-均值方法,对比DFFS方法与其他3种常用特征选择方法(DF,TC,TS)的聚类性能.实验一:当特征数量由6000减少到1047时,DF方法的聚类性能急剧下降,而DFFS方法则有提高,甚至当特征数量进一步减少到350时,DFFS方法也没有下降.实验二:在保持10%~2%的特征时,DFFS方法优于其他3种方法,特别是在只保留2%的特征时,DFFS方法的明显优于其他方法.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133