|
计算机科学 2014
面向分布式的sparql查询优化算法DOI: 10.11896/j.issn.1002-137X.2014.07.047 Keywords: rdf,hadoop,sparql查询,mapreduce中图法分类号tp391文献标识码a Abstract: 采用分布式来实现sparql(simpleprotocolandrdfquerylanguage)查询是解决海量rdf(resourcedescriptionframework)查询的一种新思路。目前实现的基于hadoop的rdf查询都要启用多个mapreduce来完成任务,浪费时间。为了克服此缺点,提出mrqj(usingmapreducetoqueryandjoin)算法,用以实现sparql的分布式查询。该算法分为连接计划生成与sparql查询执行两个部分:连接计划生成采用贪心策略,生成最优的连接方案;在sparql查询执行中只需结合一次mapreduce计算即可得到查询结果。在lubm数据集上进行的测试实验表明:在查询语句较为复杂的情况下,mrqj方法的查询效率具有明显的优势。
|