%0 Journal Article %T 基于词性和中心点改进的文本聚类方法 %A 施侃晟 %A 刘海涛 %A 宋文涛 %J 模式识别与人工智能 %P 996-1001 %D 2012 %X 针对k-均值算法对初始点敏感、易陷入局部最优的问题,提出一种基于词性和中心点改进的文本聚类方法(STICS)。通过改进文本的语义型表示,优化中心点的选取,并消除孤立点的负面影响,从而获得较好的聚类效果。STICS考虑不同词性特征对文本的贡献,采用加权的向量空间模型来表示文本。对于中心点的选取,首先度量每个样本的样本平均相似度,其次选取样本平均相似度最大的样本作为第一个聚类中心。此外,STICS消除孤立点的负面影响,以此提高聚类效果。实验结果表明文中方法确实具有更好的聚类效果。 %K 文本聚类 %K k-均值 %K 词性特征 %K 样本平均相似度 %K 孤立点 %U http://manu12.magtech.com.cn/Jweb_prai/CN/abstract/abstract9515.shtml