%0 Journal Article %T 基于链接划分的分布式WEB信息检索* %A 张刚 %A 王斌 %A 吴丽辉 %J 模式识别与人工智能 %P 519-524 %D 2007 %X 分布式信息检索是面向海量WEB信息检索的一种有效手段.本文采用一种基于链接的聚类方法(LIBCA)来对网页数据进行划分,并采用BloomFilter优化LIBCA算法的计算效率,在检索过程中采用CORI集合选择算法和OKAPIBM25检索算法.基于最近3年的TRECWEB实验数据集,对比集中式检索、基于随机划分的分布式检索,实验结果表明,本文方法在P@10的指标上可达到甚至超过集中式检索的效果.效率方面的实验表明利用BloomFilter的LIBCA算法具有较高的划分效率,适合海量数据的处理. %K 网页链接 %K 聚类 %K 分布式信息检索 %U http://manu12.magtech.com.cn/Jweb_prai/CN/abstract/abstract10530.shtml