|
华东师范大学学报(自然科学版) 2014
Spark上的等值连接优化, PP. 261-270 Keywords: Spark,SQL,大数据分析,等值连接,内存计算 Abstract: 等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的BroadcastJoin和RepartitionJoin性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将SimiJoin与PartitionJoin的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.
|