%0 Journal Article %T 一种基于LDA的k话题增量训练算法 %A 辛宇 %A 杨静 %A 谢志强 %J 吉林大学学报(工学版) %P 1242-1252 %D 2015 %X 由于LDA模型需要预先给定话题个数k,因此在进行最优话题个数k选取时需要对语料库进行k值循环计算,从而加剧了算法的复杂度。针对LDA模型的最优k值选取问题,提出LDA话题增量训练算法。该方法首先以词-话题概率熵值作为LDA迭代过程中模糊单词的选取标准,并将抽取模糊单词归入新话题;其次,增加LDA变分推理过程中全局参数β(单词-话题概率矩阵)和α(狄利克雷分布参数)的维数及话题个数k;再次,将变换后的全局参数β、α和k作为输入进行变分训练;最后,循环调用LDA话题增量训练算法并在似然函数值收敛时停止循环过程,完成k的增量训练。此外,通过对真实数据集的实验分析验证了本文算法对最优k值选取的有效性和可行性。 %K 人工智能 %K LDA %K 变分推理 %K 增量训练 %K 话题分类 %K 自然语言处理 %U http://xuebao.jlu.edu.cn/gxb/CN/Y2015/V45/I4/1242