|
中山大学学报(自然科学版) 2018
CSPRJ:基于数据倾斜的MapReduce连接查询算法Keywords: 数据倾斜,MapReduce,Hadoop,连接查询,查询优化,负载均衡 Abstract: 摘要 数据倾斜是海量数据分析与处理中常见场景之一.在数据倾斜场景下,传统MapReduce连接查询算法并不能充分利用Hadoop平台并行计算编程模型特性.本文主要研究基于数据倾斜的MapReduce连接查询算法.针对传统多表连接查询算法不能有效解决数据倾斜导致的性能瓶颈问题,设计并实现统计倾斜轮询分区连接查询优化算法,该算法以HDFS作为数据存储层,通过统计倾斜与轮询分区策略有效将数据分发到Hadoop集群各个计算节点.实验表明,本文提出的算法在不同数据倾斜率下均能有效实现负载均衡,充分利用MapReduce并行计算特性,并已在实际应用场景中获得较好性能提升
|