|
武汉理工大学学报 2010
一种基于网页dom树的信息采集系统Abstract: ?在分析web页面文档对象基础上,提出了一种通过网页dom树路径进行采集区域定制的算法,进而实现网页信息的定时或实时自动抽取。基于该算法过程,以中国船舶市场研究中心需求为例,采用ssh(spring、struts和hibernat)技术框架设计并实现了一个信息采集系统,其执行过程分为网站信息源定制、网页信息抽取和信息管理3个过程;采集后的信息将存放在关系数据库和文件系统中,以便支持查询和其他扩展应用。系统经运行测试可对大多数船舶行业网站进行信息抽取,且抽取效果良好。
|