全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

基于页面标签的web结构化数据抽取

Keywords: web数据抽取web挖掘结构化数据信息抽取

Full-Text   Cite this paper   Add to My Lib

Abstract:

本文研究了从dataintensive类型的web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的html树sim-htree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识数据项。实验表明,该算法是有效的。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133