全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

一种基于网页dom树的信息采集系统

Keywords: 信息抽取,dom树,信息采集,信息管理

Full-Text   Cite this paper   Add to My Lib

Abstract:

?在分析web页面文档对象基础上,提出了一种通过网页dom树路径进行采集区域定制的算法,进而实现网页信息的定时或实时自动抽取。基于该算法过程,以中国船舶市场研究中心需求为例,采用ssh(spring、struts和hibernat)技术框架设计并实现了一个信息采集系统,其执行过程分为网站信息源定制、网页信息抽取和信息管理3个过程;采集后的信息将存放在关系数据库和文件系统中,以便支持查询和其他扩展应用。系统经运行测试可对大多数船舶行业网站进行信息抽取,且抽取效果良好。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133