%0 Journal Article %T Spark环境下基于多维布隆过滤器的星型连接算法 %A 朱永利 %A 萨初日拉 %J 计算机应用 %D 2016 %R 10.11772/j.issn.1001-9081.2016.02.0353 %X 摘要 为了适应联机分析处理(OLAP)系统中实时数据高性能分析需求不断提高的需求,提出一种能够适合Spark环境并结合多维Bloom Filter(MDBF)的星型连接算法SMDBFSJ。首先,根据多个维表构建MDBF,利用其占用空间小的特点,广播到所有节点;然后,在本地节点完成事实表过滤操作,事实表不需要在节点间移动数据;最后,过滤后的事实表与维表采用重划分方式进行连接,进而得到最终结果。SMDBFSJ算法避免了事实表数据移动,通过MDBF减小了需要广播的数据量,充分结合了广播连接和重划分连接的优势。实验结果表明了该算法的有效性,在单机和集群环境下,该算法相比重划分连接均获得了3倍左右的性能提升 %K 布隆过滤器 %K 星型连接 %K 联机分析处理 %K Spark %U http://www.joca.cn/CN/abstract/abstract18984.shtml