搜索引擎中信息动态采集策略的研究
, PP. 1984-1988
Keywords: 搜索引擎,数据下载器,网页更新,泊松过程,相关性
Abstract:
为了能及时采集到有关网页信息,搜索引擎应根据相应网站及其更新速度,动态调整其信息采集的频度.本文就模型化网页更新过程以及根据相关性动态调整搜索引擎的信息采集频度进行了探讨.一方面使用泊松过程来描述网页更新并分析了搜索引擎如何有效完成信息采集;另一方面采用基于网页从属关系和内容分析的相关性来调节该过程,使得在进行信息采集与数据更新时的针对性更强.实验表明了该方法的有效性.
Full-Text