全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

视觉与标签信息的Deep Web查询页面内容提取

DOI: 10.11835/j.issn.1000-582X.2012.06.019

Keywords: 深层网,内容提取,DOM树,CSS样式,视觉树

Full-Text   Cite this paper   Add to My Lib

Abstract:

提出了一种结合页面视觉信息和标签信息来提取页面内容结构的方法——DVS。DVS首先通过分析页面的CSS样式信息、DOM树以获得页面的视觉信息和标签信息,初步得到页面的视觉树;然后利用树的路径相似算法,既考虑标签信息又考虑视觉信息来计算树中模块的相似性,对模块进行聚类,最终得到页面的视觉树,即页面的内容结构。DVS主要的特色在于从视觉信息和标签信息两方面来提取页面的内容结构;采用树形结构表示视觉信息,将分析视觉信息转换成分析“视觉属性”树。实验采用UIUC的TEL数据集,分别与WTS算法、VIPS算法进行了比较,文中算法可以获得更高的准确性。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133