|
计算机科学 2007
领域相关的web网站抓取方法Keywords: meta-search聚焦爬虫(focusedcrawler)启发式搜索 Abstract: 本文提出了一种抓取领域相关的web站点的方法,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫(focusedcrawler)技术,首先利用meta-search技术来改进传统crawler的通过链接分析来抓取网页的方法,而后利用启发式搜索大大降低了搜索代价,通过引入一种评价领域相关性的打分方法,迭到了较好的准确率。本文详细地描述了上述算法并通过详细的实验验证了算法的效率和效果。
|