%0 Journal Article
%T Automatic Data Extraction from Template-Generated Web Pages
针对模板生成网页的一种数据自动抽取方法
%A YANG Shao-Hua
%A HAN Yan-Bo
%A
杨少华
%A 林海略
%A 韩燕波
%A YANG Shao-Hua
%A LIN Hai-Lüe
%A HAN Yan-Bo
%J 软件学报
%D 2008
%I
%X 当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于"列表页面"和"详细页面"两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率.
%K Web
%K automatic data extraction
%K information extraction
%K template detection
%K wrapper generation
Web
%K 自动数据抽取
%K 信息抽取
%K 模板发现
%K Wrapper生成
%U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=7735F413D429542E610B3D6AC0D5EC59&aid=5FC96534C848EF7E4A71BDC5DB63542F&yid=67289AFF6305E306&vid=2A8D03AD8076A2E3&iid=0B39A22176CE99FB&sid=79D2EF35F60110C2&eid=E089FDF3CDAE8561&journal_id=1000-9825&journal_name=软件学报&referenced_num=0&reference_num=12