%0 Journal Article %T 基于狄利克雷多项分配模型的多源文本主题挖掘模型 %A 钱志森 %A 陈艳平 %A 黄瑞章 %A 黎万英 %J 计算机应用 %D 2018 %R 10.11772/j.issn.1001-9081.2018041359 %X 摘要 随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘 %K 多源文本数据 %K 主题模型 %K 吉布斯采样 %K 狄利克雷多项分配模型 %K 文本挖掘 %U http://www.joca.cn/CN/abstract/abstract22610.shtml