%0 Journal Article %T 基于概率主题模型的文档聚类 %A 王李冬 %A 魏宝刚 %A 袁杰 %J 电子学报 %P 2346-2350 %D 2012 %R 10.3969/j.issn.0372-2112.2012.11.033 %X 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(LatentDirichletAllocation)模型和TC_LDA模型的聚类算法.TC_LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法. %K 主题模型 %K LDA模型 %K TC_LDA模型 %K 文档聚类 %U http://www.ejournal.org.cn/CN/abstract/abstract6933.shtml