%0 Journal Article %T 融合形态和语义相似度的对话短文本聚类 %A 杨静 %A 胡琴敏 %A 贺樑 %A 陈国梁 %J 中山大学学报(自然科学版) %D 2015 %X 摘要 智能对话系统是一种人机交互系统,其产生的对话文本是一种特殊的短文本并蕴含着丰富的信息.这类对话短文本具有口语化、输入错误、同音不同字以及同义不同字等特点,导致现有的经典聚类算法无法进行有效的处理.为了对这类对话短文本进行有效的聚类,提出一种形态和语义相似度相结合的短文本聚类算法,其中形态相似度采用字符串相似度,语义相似度基于HowNet和WordNet词语知识库.通过在多种短文本数据集上实验结果表明,本文短文本聚类算法在中英文短文本数据集上均有较好的聚类效果.在小i机器人对话文本数据集上的聚类纯度指标相对于Kmeans算法和gcluto工具包中的算法分别有20%和7%的提高 %K 智能对话系统 %K 短文本 %K 聚类算法 %K 形态相似度 %K 语义相似度 %U http://xwxt.sict.ac.cn/CN/abstract/abstract3047.shtml