%0 Journal Article %T 面向faq文档的轻量级聚类算法 %A 马连浩 %A 杨鑫华 %A 李荣键 %J 图书情报工作 %D 2008 %X ?文档聚类分析是组织文档的一种有效方法,在信息处理中被广泛应用于未知话题的自动发现并取得不错的效果。本文提出了一个轻量级聚类算法。该算法利用减小原始文档的索引数,来处理大量小文档,并把它们分组到几千个簇,或者通过更改特定参数,将聚类簇的数量减小到几十个。理论分析和实际应用表明,该算法改善了对高维数据和大量小文档处理效率。 %K 自动化信息表示 %K 数据挖掘 %K web文档聚类 %K k均值算法 %K 数据挖掘 %K web文档聚类 %K k均值算法 %K 自动化信息表示 %U http://124.16.154.130:8080/lis/CN/abstract/abstract8651.shtml