%0 Journal Article
%T 基于树自动机的网页数据抽取
%A 王茹
%A 宋瀚涛
%A 陆玉昌
%J 北京理工大学学报
%D 2004
%X 为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.
%K 数据抽取
%K 树自动机
%K Web网页
%K HTML
%U http://journal.bit.edu.cn/zr/ch/reader/view_abstract.aspx?file_no=20040910&flag=1