全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...
-  2018 

基于正则抽取的竹种数据结构化方法研究

DOI: 10.3969/ j. issn.1673-629X.2018.06.033

Keywords: 信息抽取, 正则表达式, 竹种数据, 数据结构化

Full-Text   Cite this paper   Add to My Lib

Abstract:

研究旨在通过基于规则的信息抽取技术解决竹类种质资源(简称竹种)数据的自动提取和结构化存储问题,为快速构建竹种数据库提出一种基于正则抽取模型的竹种数据结构化方法。 该方法以竹种数据库表结构为抽取模板,以数据表属性名称为规则触发词,利用正则表达式构建抽取规则,构建正则抽取模型。 以中国植物志在线版为实验对象,通过网页解析和字段抽取两步实现了竹种数据的自动抽取与结构化,实验抽取竹种信息五百多条,取数据表前八个字段进行抽样统计分析,抽取竹种有效字段信息准确率高达 89%以上。 实验结果表明,基于正则抽取的竹种数据结构化方法是可行有效的,并采用 Java 语言开发了竹种信息抽取系统,实现了该方法

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133