%0 Journal Article %T MapReduce环境下支持精确查询的嵌套式数据索引技术 %A 彭敦陆 %A 王丽 %A 霍欢 %J 中山大学学报(自然科学版) %D 2015 %X 摘要 目前,针对嵌套式数据集上的高效查询处理已成为Web数据检索的一个重要任务.不同于传统信息检索,嵌套式数据集既要存储数据又要存储结构,导致了针对该类数据集查询的低效性,特别是对如何保证精确查询效率更是一个挑战.结合列存储结构和倒排索引技术,首先定义了表达嵌套式数据集中数据位置信息的唯一路径UPath,提出一种新的支持嵌套式数据集精确查询的索引结构——UniHash.在此基础上,给出了生成数据值的唯一路径UPath以及基于MapReduce框架建立UniHash索引的相关算法.通过将其与XPath检索进行对比,验证了UniHash索引结构的有效性.实验表明,将嵌套式数据集进行列式存储并建立UniHash索引,能够明显地提高精确查询的效率 %K 嵌套式数据 %K 精确查询 %K 列存储 %K 倒排索引 %K UniHash %U http://xwxt.sict.ac.cn/CN/abstract/abstract2598.shtml