全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

Spark上的等值连接优化

, PP. 261-270

Keywords: Spark,SQL,大数据分析,等值连接,内存计算

Full-Text   Cite this paper   Add to My Lib

Abstract:

等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的BroadcastJoin和RepartitionJoin性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将SimiJoin与PartitionJoin的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133