|
现代图书情报技术 2004
Application of Improved Information Gain Feature Selection Methodto Text Clustering
|
Abstract:
利用改进的信息增益特征选择的方法,对文本进行了有效的自动聚类。从语料库中抽取了250篇文本,利用向量空间模型和信息增益特征降维方法,构造文本特征向量,并最终利用C-均值方法聚类,聚类结果精度、召回率、F-measure分别达到0.82、0.88、0.83。