%0 Journal Article %T 基于DeepWebSearch技术的主题式爬虫模块研究与设计 %A 孟敬 %A 刘寿强 %J 科技导报 %P 31-35 %D 2011 %R 10.3981/j.issn.1000-7857.2011.21.004 %X 随着Web技术的飞速发展,海量数据的管理与搜索变得尤为重要。海量信息的异构性和动态性特点要求信息集成需要Web爬虫来自动获取这些页面,以便进一步处理数据。而一些企业内部的资料既要保密又要供不同的内部职员使用,这种既开放又保守的特点成为企业发展的瓶颈。为了帮助用户完成这样的任务,本文改变传统的资源共享形式,为企业提供了一个高效便利保密的资源共享管理平台——企业搜索引擎(ESE),提出了一种基于主题式爬虫的DeepWeb页面的企业搜索引擎(ESE)的和基于开源JavaLucene的索引企业搜索系统设计与实现方法。通过在电信行业DeepWeb站点部署实验,经运行检验,结果达到了设计指标要求,为电信行业搜索发挥了作用。并对搜索的精度、速度,以及垃圾网页反舞弊等方面研究进行了展望。 %K 主题式爬虫 %K 企业搜索引擎 %K Deep %K Web搜索技术 %K 电信 %K 设计与实施 %U http://www.kjdb.org/CN/abstract/abstract8208.shtml