全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...
科技导报  2011 

基于DeepWebSearch技术的主题式爬虫模块研究与设计

DOI: 10.3981/j.issn.1000-7857.2011.21.004, PP. 31-35

Keywords: 主题式爬虫,企业搜索引擎,Deep,Web搜索技术,电信,设计与实施

Full-Text   Cite this paper   Add to My Lib

Abstract:

随着Web技术的飞速发展,海量数据的管理与搜索变得尤为重要。海量信息的异构性和动态性特点要求信息集成需要Web爬虫来自动获取这些页面,以便进一步处理数据。而一些企业内部的资料既要保密又要供不同的内部职员使用,这种既开放又保守的特点成为企业发展的瓶颈。为了帮助用户完成这样的任务,本文改变传统的资源共享形式,为企业提供了一个高效便利保密的资源共享管理平台——企业搜索引擎(ESE),提出了一种基于主题式爬虫的DeepWeb页面的企业搜索引擎(ESE)的和基于开源JavaLucene的索引企业搜索系统设计与实现方法。通过在电信行业DeepWeb站点部署实验,经运行检验,结果达到了设计指标要求,为电信行业搜索发挥了作用。并对搜索的精度、速度,以及垃圾网页反舞弊等方面研究进行了展望。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133