%0 Journal Article %T 基于改进互信息和邻接熵的微博新词发现方法 %A 宋健 %A 许国艳 %J 计算机应用 %D 2016 %R 10.11772/j.issn.1001-9081.2016.10.2772 %X 摘要 针对目前微博新词发现算法中的数据稀疏、可移植性较差以及缺乏对多字词(大于三字)识别的问题,提出了基于改进互信息(MI)和邻接熵(BE)的微博新词发现算法——MBN-Gram。首先,利用N元递增算法(N-Gram)提取新词的候选项,对提取出来的候选新词使用频率和停用字等规则进行过滤;接着再利用改进MI和BE对候选项进行扩展及再过滤;最后,结合相应词典进行筛选,从而得到新词。通过理论及实验分析,MBN-Gram算法在准确率、召回率及F值上均有一定提高。实验结果表明,MBN-Gram算法是有效可行的 %K 新词发现 %K 多字词 %K N-Gram %K 互信息 %K 邻接熵 %U http://www.joca.cn/CN/abstract/abstract19860.shtml