|
大连理工大学学报 2009
英文科技文档识别中数学公式定位新方法DOI: 10.7511/dllgxb200901026, PP. 139-143 Abstract: 提出了一种自底向上和自顶向下相结合的定位英文科技文档图像中数学表达式的新方法.首先,利用整幅图像的统计数据计算出用于分类的基准参数,然后利用局部极大成分的水平投影数据进行初步行分割,再利用每行的竖直投影数据将每行的符号分成数个子区域.对每一个子区域依据其性质利用基准参数进行分类,通过对特定类别子区域的适当合并,最终得到文档图像中公式的位置.新方法可以用于处理图文混排的文档图像,能够降低文档中的图片、表格等元素对于公式定位结果的影响.
|