%0 Journal Article %T MapReduce在线抽样分区负载均衡研究 %A 丁雷道 %A 卫 琳 %A 石 磊 %A 陶永才 %J 中山大学学报(自然科学版) %D 2017 %X 摘要 数据倾斜一直是影响MapReduce性能的关键问题之一.为缓解数据倾斜问题,提出一种基于抽样分区的MapReduce在线负载均衡机制:MR-LSP(MapReduce on-line Load balancing mechanism based on Sample Partition).MR-LSP在作业执行之前,通过对源数据抽样分析,预测数据的分布特征,动态采取相应的负载均衡数据分区策略;在作业运行期间实时监控节点负载,进一步动态优化数据分区策略.实验结果表明:MR-LSP能够提高系统3.2%的负载均衡,降低4.3%的作业执行时间,有效缓解了MapReduce的数据倾斜问题 %K MapReduce %K 数据倾斜 %K 动态调度 %K 抽样分区 %U http://xwxt.sict.ac.cn/CN/abstract/abstract3786.shtml