%0 Journal Article %T 基于加权核非负矩阵分解的短文本聚类算法 %A 刘海 %A 贺超波 %A 陈启买 %J 计算机应用 %D 2018 %R 10.11772/j.issn.1001-9081.2018020356 %X 摘要 对互联网产生的大量短文本进行聚类分析具有重要的应用价值,但由于短文本存在特征稀疏和特征难以提取的问题,导致传统的文本聚类算法难以有效处理该问题。为了解决该问题,利用非负矩阵分解(NMF)模型提出基于加权核非负矩阵分解(WKNMF)的短文本聚类算法。该算法通过核方法的映射关系将稀疏特征空间映射到高维隐性空间,从而可以充分利用短文本中的隐性语义特征进行聚类;另外,利用核技巧简化高维数据的复杂运算,并通过迭代更新规则不断地动态调整短文本的权重向量,从而可以区分不同短文本对聚类的重要性。在真实的微博数据集上进行了相关实验,结果表明WKNMF算法比K均值、隐含狄利克雷分布(LDA)、NMF和自组织神经网络(SOM)具有更好的聚类质量,准确度和归一化互信息分别达到了66.38%和66.91% %K 核方法 %K 短文本聚类 %K 非负矩阵分解 %K 核技巧 %K 迭代优化求解 %U http://www.joca.cn/CN/abstract/abstract22296.shtml