OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

华东师范大学学报(自然科学版) 2014

Spark上的等值连接优化

, PP. 261-270

卞昊穹,陈跃国,杜小勇,高彦杰

Keywords: Spark,SQL,大数据分析,等值连接,内存计算

Full-Text Cite this paper Add to My Lib

Abstract:

等值连接作为数据分析中最常用、代价最高的操作之一，在Spark上的实现和优化与传统并行数据库有很大的差别，传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现，而目前被广泛采用的BroadcastJoin和RepartitionJoin性能较差，如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将SimiJoin与PartitionJoin的优势相结合，并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133