%0 Journal Article
%T 面向信息检索的自适应中文分词系统
%A 刘超
%A 曹勇刚
%A 曹羽中
%A 金茂忠
%J -
%D 2006
%X 新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势
%K 分词系统 分词算法 信息检索 新词识别 歧义消解
%U http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=20060302&flag=1