%0 Journal Article %T 中文电子文档中数学公式的语义识别方法研究 %A 张自强 %A 杜培明 %A 王培珍 %A 王爱芳 %A 王高 %J 中山大学学报(自然科学版) %D 2017 %X 摘要 中文电子文档中数学公式结构复杂且含有大量特殊符号,针对目前OCR技术难以高效识别数学公式,提出了一种新的公式语义识别方法.首先结合字符宽度中心矩和汉字拒识法对公式进行两次定位,然后利用投影法和连通域法切分公式字符,提取字符孔洞数、穿越线等特征构建字符模板库,利用模板匹配方法识别公式中各字符,接着基于五类特征字符的特点,建立后标型、包含型和独立型等七种字符块合并规则以分析公式结构、还原公式的语法含义,最后将公式结构分析结果以EQ域语法串的形式输出.实验结果表明,本文方法可以有效地对中文电子文档中的数学公式进行语义分析 %K 数学公式定位 %K 字符识别 %K 结构分析 %K 语义识别 %U http://xwxt.sict.ac.cn/CN/abstract/abstract4184.shtml