%0 Journal Article %T 一种基于网页dom树的信息采集系统 %A 刘文杰 %A 田伟 %A 马廷淮 %A 崔萌萌 %J 武汉理工大学学报 %D 2010 %X ?在分析web页面文档对象基础上,提出了一种通过网页dom树路径进行采集区域定制的算法,进而实现网页信息的定时或实时自动抽取。基于该算法过程,以中国船舶市场研究中心需求为例,采用ssh(spring、struts和hibernat)技术框架设计并实现了一个信息采集系统,其执行过程分为网站信息源定制、网页信息抽取和信息管理3个过程;采集后的信息将存放在关系数据库和文件系统中,以便支持查询和其他扩展应用。系统经运行测试可对大多数船舶行业网站进行信息抽取,且抽取效果良好。 %K 信息抽取 %K dom树 %K 信息采集 %K 信息管理 %U http://www.whlgdxxb.com.cn//qikan/Cpaper/zhaiyao.asp?bsid=30288