%0 Journal Article %T 一种基于提取上下文信息的分词算法 %A 曾华琳 %A 李堂秋 %A 史晓东 %J 计算机应用 %D 2005 %X ?汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意。文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分。这种切分算法结合经典n元模型以及em算法,在封闭和开放测试环境中分别取得了比较好的效果。 %K 中文分词 %K n元模型 %K 上下文信息 %U http://www.joca.cn/CN/abstract/abstract14449.shtml