%0 Journal Article %T 中英文混合文章识别问题 %A 王恺? %A 王庆人? %J 软件学报 %P 786-798 %D 2005 %X 当前,已经有大量为单一字符集(或语种)而设计的ocr(opticalcharacterrecognition)分类器.同时,随着全球一体化,多语文档的出现越来越普遍.因此,设计多语文档处理系统势在必行.提出了一般性的解决方案:两项ocr技术、一个系统和语言判断.为了使研究工作具体化,实现了一个中英文混合文章处理系统.其中主要涉及了3个关键问题:系统流程控制、汉英语言区域分离和英文字符切分.与以往的系统相比,该系统增加了汉英语言区域分离模块,并将基于等间距性的新方法应用于该模块.为了验证本系统的有效性,综合以往的方法实现了另一个系统.实验结果表明,该系统的性能明显优于另一个系统,在杂志样和书籍样上的识别率分别从98.48%和98.68%提高到99.13%和99.25%. %K 系统设计 %K 语言判别 %K 字符切分 %K 多语光学字符识别系统 %K 文档图像处理 %U http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=20050518&flag=1