全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...
软件学报  2005 

中英文混合文章识别问题

, PP. 786-798

Keywords: 系统设计,语言判别,字符切分,多语光学字符识别系统,文档图像处理

Full-Text   Cite this paper   Add to My Lib

Abstract:

当前,已经有大量为单一字符集(或语种)而设计的ocr(opticalcharacterrecognition)分类器.同时,随着全球一体化,多语文档的出现越来越普遍.因此,设计多语文档处理系统势在必行.提出了一般性的解决方案:两项ocr技术、一个系统和语言判断.为了使研究工作具体化,实现了一个中英文混合文章处理系统.其中主要涉及了3个关键问题:系统流程控制、汉英语言区域分离和英文字符切分.与以往的系统相比,该系统增加了汉英语言区域分离模块,并将基于等间距性的新方法应用于该模块.为了验证本系统的有效性,综合以往的方法实现了另一个系统.实验结果表明,该系统的性能明显优于另一个系统,在杂志样和书籍样上的识别率分别从98.48%和98.68%提高到99.13%和99.25%.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133