|
中山大学学报(自然科学版) 2017
Spark环境下的分布式OLAP查询Keywords: 分层封闭立方体,封闭单元,Spark,OLAP查询 Abstract: 摘要 数据立方体是数据仓库的核心数据模型,其元组可以划分为封闭元组和非封闭元组,通过去掉非封闭单元进行压缩并分层形成了分层封闭立方体.以Hadoop为主的云计算环境通常以离线批量计算为主,查询分析有一定的延迟,不能达到OLAP的在线性和交互性.Spark是一个基于内存的快速通用的大数据并行计算框架,对此本文基于分层封闭立方体,利用Spark,设计和实现了两种有效的分布式OLAP查询算法:SLCCQuery及其优化算法SLCC_LayeredQuery.不同参数的数据集上的实验验证了本文提出的Spark环境下的分布式OLAP查询算法的有效性及其优化算法的相对高效性
|