%0 Journal Article %T 结合内容和标签的web文本聚类研究 %A 顾晓雪 %A 章成志 %J 现代图书情报技术 %D 2014 %X ?[目的]探索社会标签与文本内容的结合对文本聚类的影响.[方法]采用engadget中英文博客数据,使用tf×idf、textrank、textrank×idf三种特征抽取方法,线性函数和sigmod函数进行相似度加权,ap算法进行聚类.[结果]结果表明,tf×idf的聚类效果最好,两种加权对英文博文聚类有不同程度的改善,但在中文博文聚类中,sigmod加权结果稍有下降,线性加权比sigmoid加权方法效果更好.[局限]没有找出标签相似度与内容相似度最佳的权重系数.ap聚类算法不能应用于大数据,聚簇过多影响聚类结果的展示.[结论]社会标签与文本内容相似度的线性加权能改善web文本聚类结果. %K 社会标签 %K 特征选择 %K 文本聚类 %U http://www.infotech.ac.cn/CN/abstract/abstract3972.shtml