全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

一种主动发现网络地理信息服务的主题爬虫

DOI: 10.3724/SP.J.1047.2015.00185, PP. 185-190

Keywords: 主题爬虫,最佳优先搜索,网络地理信息服务,能力文档探测

Full-Text   Cite this paper   Add to My Lib

Abstract:

地理信息服务已成为分布式环境下获取地理数据的重要来源,从海量的网络资源中找到地理信息服务,是共享与互操作地理数据的基础。目前,地理信息服务主动搜索主要采用通用搜索引擎的接口或者通用爬虫的抓取方式,但这2种方式存在搜索效率低、搜索结果可用性差等不足。针对这一问题,本文设计了一种搜索地理信息服务的主题爬虫。该算法在最佳优先搜索的基础上进行了改进,综合考虑网页内容的主题相关度和链接文本的主题相关度确定链接优先级,优先爬取与地理信息服务相关的链接,并通过舍弃无关网页中的无关链接,减少无效爬取,进而提高搜索效率。此外,本文采用关键词匹配结合能力文档探测的方式识别地理信息服务,有效筛选出可用的地理信息服务,提高了服务搜索结果的可利用率。最后,本文以OGCWMS为实例,实现爬虫算法的原型系统并进行实验,实验证明该算法有效可行。

References

[1]  沈盛彧,吴华意,张彤,等.支持主动注册和实时服务质量监测的地理信息目录服务[J].武汉大学学报·信息科学版,2012,37(5):525-528.
[2]  史宝明,贺元香,吴崇正.主题搜索引擎中爬虫搜索策略的研究[J].计算机工程与应用,2014,50(2):116-119.
[3]  陈能成,陈泽强,王伟.一种基于能力匹配和本体推理的高精度Web地图服务发现方法[J].武汉大学学报·信息科学版,2009,34(12):1471-1475.
[4]  Li W W, Yang C W, Yang C J. An active crawler for discovering geospatial Web services and their distribution pattern - A case study of OGC Web Map Service [J]. International Journal of Geographical Information Science, 2010,24(8):1127-1147.
[5]  武昊,廖安平,何超英,等.基于主题相关度的地理信息Web服务爬虫研究[J].地理与地理信息科学,2012,28(2):27-30.
[6]  高琪,张永平.PageRank算法中主题漂移的研究[J].微计算机信息,2010(9):117-119.
[7]  乔建忠.一种基于改进BFS算法的主题搜索技术研究[J].现代图书情报技术,2013,235/236(7/8):28-34.
[8]  戚欣.基于本体的主题网络爬虫设计[J].武汉理工大学学报,2009,31(3):138-141.
[9]  Heydon A, Najork M. Mercator: A scalable, extensible Web Crawler [J]. World Wide Web, 1999,2(4):219-229.
[10]  李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6.
[11]  刘金红,陆余良.主题网络爬虫研究综述[J]. 计算机应用研究,2007,24(10):26-29.
[12]  蒋宗礼,徐学可,李帅.一种基于超链接引导的主题搜索的主题敏感爬行方法[J].计算机应用,2008,28(4):942-944.
[13]  Pal A, Tomar D S, Shrivastava S C. Effective focused crawling based on content and link structure analysis [J]. International Journal of Computer Science and Information Security, 2009,2(1).
[14]  Salton G, Buckley C. Term weighting approaches in automatic text retrieval[R]. Ithaca: Cornell University, 1987.
[15]  王曙,吉雷静,张雪英,等.面向网页文本的地理要素变化检测[J].地球信息科学学报,2013,15(5):625-633.
[16]  李卫疆,赵铁军,朴星海.一种新的面向主题的爬行算法[J]. 计算机应用研究,2009,26(5):1663-1666.
[17]  Chakrabarti S, van den Berg M, Dom B. Focused crawling: A new approach to topic-specific Web resource discovery [J]. Computer Networks, 1999,31(11-16):1623-1640.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133