%0 Journal Article %T 统计流形学习中的文本度量方法 %A 李正宇 %A 陈欢欢 %J 中山大学学报(自然科学版) %D 2018 %X 摘要 传统的文本分类方法如核方法、TFIDF等等,忽略了文本和词的语义信息以及主题分布的多样性.本文在高斯分布主题模型假设和统计流形学习框架的基础上,提出一种基于统计流形的文本距离度量方法(Text Metric on Statistical Manifold,TMSM).该算法是对主题模型的扩展,通过使用高斯混合模型来描述词在主题中的分布,得到了不同文本基于不同主题分布的概率模型表示.然后在统计流形学习框架下,通过度量概率模型来度量文本之间的距离,并使用在分类器算法上.多种数据集上进行的分类实验结果表明:和经典的文本分类方法相比,TMSM在所有测试数据集上均取得较好的分类准确率 %K 文本分类 %K 流形学习 %K 混合模型 %K 主题模型 %U http://xwxt.sict.ac.cn/CN/abstract/abstract4354.shtml