%0 Journal Article %T 基于Maxdiff直方图的MapReduce负载均衡研究 %A 卫琳 %A 张丹丹 %A 石磊 %A 陶永才 %J 中山大学学报(自然科学版) %D 2016 %X 摘要 MapReduce作为处理大数据的分布式计算框架,被越来越多地应用在科学研究中.科研数据通常具有高度倾斜性.数据分布的均匀程度很大程度上影响着MapReduce的性能.当前MapReduce多采用Hash随机划分为Reduce阶段分配数据,当数据分布倾斜时,会造成Reduce阶段各节点负载不均衡.为解决这一问题,提出一种基于Maxdiff直方图的负载均衡方法MHLB.采用Maxdiff直方图估计Map阶段输出中间结果的数据分布情况,并提出改进的数据划分方法,实现数据混洗过后数据记录的均衡划分.实验结果证明,在同构集群下,较之标准MapReduce,负载均衡方法MHLB可有效实现各Reduce节点的负载均衡,降低作业运行时间 %K MapReduce %K 数据倾斜 %K 直方图 %K 数据划分 %U http://xwxt.sict.ac.cn/CN/abstract/abstract3289.shtml