|
中山大学学报(自然科学版) 2016
基于Maxdiff直方图的MapReduce负载均衡研究Keywords: MapReduce,数据倾斜,直方图,数据划分 Abstract: 摘要 MapReduce作为处理大数据的分布式计算框架,被越来越多地应用在科学研究中.科研数据通常具有高度倾斜性.数据分布的均匀程度很大程度上影响着MapReduce的性能.当前MapReduce多采用Hash随机划分为Reduce阶段分配数据,当数据分布倾斜时,会造成Reduce阶段各节点负载不均衡.为解决这一问题,提出一种基于Maxdiff直方图的负载均衡方法MHLB.采用Maxdiff直方图估计Map阶段输出中间结果的数据分布情况,并提出改进的数据划分方法,实现数据混洗过后数据记录的均衡划分.实验结果证明,在同构集群下,较之标准MapReduce,负载均衡方法MHLB可有效实现各Reduce节点的负载均衡,降低作业运行时间
|