|
中山大学学报(自然科学版) 2015
融合形态和语义相似度的对话短文本聚类Keywords: 智能对话系统,短文本,聚类算法,形态相似度,语义相似度 Abstract: 摘要 智能对话系统是一种人机交互系统,其产生的对话文本是一种特殊的短文本并蕴含着丰富的信息.这类对话短文本具有口语化、输入错误、同音不同字以及同义不同字等特点,导致现有的经典聚类算法无法进行有效的处理.为了对这类对话短文本进行有效的聚类,提出一种形态和语义相似度相结合的短文本聚类算法,其中形态相似度采用字符串相似度,语义相似度基于HowNet和WordNet词语知识库.通过在多种短文本数据集上实验结果表明,本文短文本聚类算法在中英文短文本数据集上均有较好的聚类效果.在小i机器人对话文本数据集上的聚类纯度指标相对于Kmeans算法和gcluto工具包中的算法分别有20%和7%的提高
|