|
计算机科学 2014
一种基于kademlia的全分布式爬虫集群方法Keywords: kademlia,分布式爬虫,弱计算终端,海量节点,结构化p2p中图法分类号tp301.6文献标识码a Abstract: 针对将海量爬虫节点组织成全分布式爬虫集群所遇到的高效、均衡、可靠、可拓展等问题,提出了一种基于kademlia的全分布式爬虫集群方法。该方法通过改进的kademlia技术建立起爬虫节点间的底层通信机制。在此基础上,根据kademlia的异或特性及节点的可用资源情况,设计并实现具有任务划分、异常处理、节点加入退出处理及负载均衡的全分布式爬虫集群模型。在实际网络系统上的实验结果表明,该方法能有效利用海量弱计算终端的计算、存储和带宽资源,构建高效、均衡、可靠、可大规模拓展的全分布式爬虫集群。
|