面向faq文档的轻量级聚类算法
Keywords: 自动化信息表示,数据挖掘,web文档聚类,k均值算法,数据挖掘,web文档聚类,k均值算法,自动化信息表示
Abstract:
?文档聚类分析是组织文档的一种有效方法,在信息处理中被广泛应用于未知话题的自动发现并取得不错的效果。本文提出了一个轻量级聚类算法。该算法利用减小原始文档的索引数,来处理大量小文档,并把它们分组到几千个簇,或者通过更改特定参数,将聚类簇的数量减小到几十个。理论分析和实际应用表明,该算法改善了对高维数据和大量小文档处理效率。
Full-Text