%0 Journal Article
%T 一种基于网页dom树的信息采集系统
%A 刘文杰
%A 田伟
%A 马廷淮
%A 崔萌萌
%J 武汉理工大学学报
%D 2010
%X ？在分析web页面文档对象基础上，提出了一种通过网页dom树路径进行采集区域定制的算法，进而实现网页信息的定时或实时自动抽取。基于该算法过程，以中国船舶市场研究中心需求为例，采用ssh（spring、struts和hibernat）技术框架设计并实现了一个信息采集系统，其执行过程分为网站信息源定制、网页信息抽取和信息管理3个过程；采集后的信息将存放在关系数据库和文件系统中，以便支持查询和其他扩展应用。系统经运行测试可对大多数船舶行业网站进行信息抽取，且抽取效果良好。
%K 信息抽取
%K dom树
%K 信息采集
%K 信息管理
%U http://www.whlgdxxb.com.cn//qikan/Cpaper/zhaiyao.asp?bsid=30288