|
自动化学报 2009
基于LDA模型的主题分析DOI: 10.3724/SP.J.1004.2009.01586, PP. 1586-1592 Keywords: 主题分析,LDA模型,文本分割,Gibbs抽样 Abstract: ?在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latentdirichletallocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片段边界.依据词汇的香农信息提取片段主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵.实验表明,文本分析的结果明显好于其他方法,可以为下一步文本推理的工作提供有价值的预处理.
|