OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

图书情报工作 2010

基于gate语义标注的web信息的自动抽取

聂卉,黄贵鹏

Keywords: web信息抽取,语义标注,包装器

Full-Text Cite this paper Add to My Lib

Abstract:

？重点研究基于语义标注样本的web信息自动抽取的实现方法。借助自然语言处理框架gate，首先引入领域本体对样本网页内容进行语义标注，精确定位出待抽取的语义项，并据此将样本网页解析为sdom树。从sdom树中抽取出语义项的特征描述，形成样本实例并采用机器学习算法归纳抽取规则，自动生成包装器。抽取过程中，通过比较网页结构的相似度，系统能够感知网页的变化，主动学习并扩展规则库。试验结果表明，由于精确定位保障了学习样本的质量，小样本学习生成的包装器能够达到较为理想的查全率和查准率。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133