OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

- 2016

基于Hadoop的SQL查询引擎性能研究

吴黎兵, 邱鑫, 叶璐瑶, 王晓栋, 聂雷
吴黎兵, 邱　鑫, 叶璐瑶, 王晓栋, 聂　雷

Full-Text Cite this paper Add to My Lib

Abstract:

Apache Hadoop处理超大规模数据集有非常出色的表现，相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势，SQL－on－Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多，各有优势，其运算引擎主要包括三种：①传统的Map/Reduce引擎；②新兴的Spark引擎；③基于shared－nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala，并使用了一种类TPC－H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看，Impala和Spark SQL相对于传统的Hive都有较大的提高，其中Impala的部分查询比Hive快了10倍以上，并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比，并不存在各方面均最优的查询引擎，因此在构建基于Hadoop的数据仓库系统时，推荐采用Hive＋Impala或者Hive＋Spark SQL的混合架构.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133