基于维基百科和网页分块的主题爬行策略
Keywords: 主题爬行,维基百科,主题描述,网页分块,相关度计算
Abstract:
?针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(wikipedia)和网页分块的主题爬行策略,通过wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来验证主题描述的详略对爬行性能的影响。实验结果表明,该策略有效,并且在一定限度内,对主题描述越详细,搜集的网页的相关度就越高。
Full-Text