|
计算机科学 2012
Method of New Chinese Word Detection Based on Statistical Learning Framework ZHANG Hai-ju
|
Abstract:
新词自动检测是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来了巨大困难。提出 一种新词检测的形式化描述模型,用以建立特征和新词检测结果之间的统计联系。在此基础上提出应用统计学习模 型作为框架来整合不同类型的可用特征,以充分发挥特征之间的组合作用,进一步改善新词检测效果。实验表明,统 计框架方法的性能明显地优于特征的简单叠加,能有效提高新词检测效果,开放实验和封闭实验的F值分别为49. 72 0 0 和69. 83 0 o,达到了目前的较好水平。