%0 Journal Article %T 基于Hadoop平台的分布式重删存储系统 %A 付印金 %A 倪桂强 %A 梅建民 %J 计算机应用 %D 2016 %R 10.11772/j.issn.1001-9081.2016.02.0330 %X 摘要 针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,MapReduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性 %K 重复数据删除 %K 分布式存储 %K Hadoop %K HBase %K Hadoop分布式文件系统 %U http://www.joca.cn/CN/abstract/abstract18980.shtml