|
计算机应用 2013
hadoop视角下的nutch爬行性能优化Keywords: nutch,hadoop,mapreduce,工作流,性能优化 Abstract: ?通过对nutchmapreducejob配置参数调优而优化nutch爬行性能。以hadoop视角梳理nutch爬行过程,并基于此详细分析nutchmapreducejob的工作流特性;对nutch爬行时mapreducejob进行持续监测,生成优化参数并代入下一轮相同类型的job运行中,从而达到优化目的;通过选取合适的间隔监测值平衡集群环境误差和监测负载以改进优化效果。经过实验测试,nutch的爬行性能提高了5%~14%,且当监测间隔值为5时有最好优化效果
|