OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

计算机科学 2009

基于dom树的可适应性web信息抽取

DOI: 10.11896/j.issn.1002-137X.2009.07.048

李朝,彭宏,叶苏南,张欢,杨亲遥？

Keywords: dom树,信息抽取,可适应性

Full-Text Cite this paper Add to My Lib

Abstract:

web信息抽取通常采用的是一种归纳学习方法，从给定的训练样本网页中学习到抽取规则，这种方法虽然能够准确地抽取出信息，但是当网站的模版发生改变后，必须重新获得抽取规则，因而这种抽取器的维护成本比较高，可适应性差。提出一种新的可适应性web信息抽取方法，该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组，然后利用网页的dom树结构来确定包含这些关键词的信息块，从而实现web信息的自动抽取。对大量商业网站进行信息抽取的实验表明，该算法不仅能有效抽取出商品信息，而且是一种与站点结构无关的可适应性信息抽取方法。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133