|
计算机科学 2004
sat-tc:基于关联的层次文档聚类Keywords: sat-tc关联层次文档聚类频繁项目集句子关联事务聚簇 Abstract: 在一篇文档中,一个单词可以看作是一个项目,一组单词就是一个项目集。在以往的基于关联的文本聚类方法中.都是将一整篇文档看作是一个事务来挖掘频繁项目集和关联规则的。但是实际上,一篇文档中的基本语义单位是句子。在同一个句子中同时出现的一组词在语义上或多或少都是相互关联的,与分布在多个句子中的同一组词相比,前者要有意义得多。因此,基于以上发现,我们考虑将文档中的每一个句子看作是一个事务,一篇文档就被看作是一个事务的集合,并由此提出了一种新的文本聚类方法:sat-tc。通过在标准测试集上的实验证明.sat-tc要优
|