全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

基于mapreduce的hadoop大表导入编程模型

Keywords: 编程模型,hadoop,mapreduce,hadoop分布式文件系统,sqoop

Full-Text   Cite this paper   Add to My Lib

Abstract:

?针对sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于mapreduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的sql查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的sql语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比sqoop有显著提高。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133