|
软件学报 2015
mapreduce集群环境下的数据放置策略DOI: 10.13328/j.cnki.jos.004807, PP. 2056-2073 Keywords: 数据放置,mapreduce,编程模型,能耗,负载均衡 Abstract: mapreduce是一种适用于大规模数据密集型应用的有效编程模型,具有编程简单、易于扩展、容错性好等特点,已在并行和分布式计算领域得到了广泛且成功的应用.由于mapreduce将计算扩展到大规模的机器集群上,处理数据的合理放置成为影响mapreduce集群系统性能(包括能耗、资源利用率、通信和i/o代价、响应时间、系统的可靠性和吞吐率等)的关键因素之一.首先,对mapreduce编程模型的典型实现——hadoop缺省的数据放置策略进行分析,并进一步讨论了mapreduce框架下,设计数据放置策略时需考虑的关键问题和衡量数据放置策略的标准;其次,对目前mapreduce集群环境下的数据放置策略优化方法的研究与进展进行了综述和分析;最后,分析和归纳了mapreduce集群环境下数据放置策略的下一步研究工作.
|