OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

北京理工大学学报 2004

基于树自动机的网页数据抽取

王茹,宋瀚涛,陆玉昌

Keywords: 数据抽取,树自动机,Web网页,HTML

Full-Text Cite this paper Add to My Lib

Abstract:

为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133