|
中山大学学报(自然科学版) 2018
LDA与词汇链相结合的主题短语抽取方法Keywords: LDA模型,词汇链,WordNet,主题短语,对数似然比 Abstract: 摘要 主题短语能够有效地概括文献主要内容,针对性地反映文献的核心思想.为了改进技术文献的主题抽取效果,在研究LDA主题模型和词汇链的基础上,提出了LDA模型与词汇链相结合的主题短语抽取方法,减小了利用单一LDA模型抽取文献主题中存在的主题漂移问题;在主题短语抽取中,利用对数似然比解决了词汇链构造过程中知识库未收录词的词语相关度的计算问题.实验结果表明,该方法相对于传统方法的主题抽取效果具有明显的改善,且准确率和召回率均有所提升.对信息检索、文本聚类等工作具有十分重要的支撑作用
|