基于双词语义增强的BTM主题模型研究
Keywords: 短文本,BTM主题模型,词向量,吉布斯采样
Abstract:
摘 要: 针对目前短文本在BTM主题模型建模过程中存在的共现双词之间语义联系较弱的问题,提出一种结合 cw2vec词向量模型的改进BTM主题模型(cw2vec-BTM)。使用cw2vec模型来训练短文本语料得到词向量,并计算词向 量相似度。然后通过设置采样阈值来改进BTM主题模型共现双词的采样方式,增加语义相关词语的被采样概率。实验 结果证明,本文提出的改进模型能有效地提高主题模型的主题凝聚度和KL散度。
Full-Text