OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

武汉理工大学学报 2010

一种基于网页dom树的信息采集系统

刘文杰,田伟,马廷淮,崔萌萌

Keywords: 信息抽取,dom树,信息采集,信息管理

Full-Text Cite this paper Add to My Lib

Abstract:

？在分析web页面文档对象基础上，提出了一种通过网页dom树路径进行采集区域定制的算法，进而实现网页信息的定时或实时自动抽取。基于该算法过程，以中国船舶市场研究中心需求为例，采用ssh（spring、struts和hibernat）技术框架设计并实现了一个信息采集系统，其执行过程分为网站信息源定制、网页信息抽取和信息管理3个过程；采集后的信息将存放在关系数据库和文件系统中，以便支持查询和其他扩展应用。系统经运行测试可对大多数船舶行业网站进行信息抽取，且抽取效果良好。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133