%0 Journal Article %T 基于Spark的Apriori并行算法优化实现 Optimization of Apriori Parallel Algorithm Based on Spark %A 王青 %A 谭良 %A 杨显华 %J 郑州大学学报(理学版) %D 2016 %X 针对传统Apriori算法处理速度和计算资源的瓶颈,以及Hadoop平台上Map-Reduce计算框架不能处理节点失效、不能友好支持迭代计算以及不能基于内存计算等问题,提出了Spark下并行关联规则优化算法.该算法只需两次扫描事务数据库,并充分利用Spark内存计算的RDD存储项集.与传统Apriori算法相比,该算法扫描事务数据库的次数大大降低;与Hadoop下Apriori算法相比,该算法不仅简化计算,支持迭代,而且通过在内存中缓存中间结果减少I/O花销.实验结果表明,该算法可以提高关联规则算法在大数据规模下的挖掘效率. %K Spark %K 并行化 %K 数据挖掘 %K 关联规则 %K Apriori %U http://zzdz.cbpt.cnki.net/WKD/WebPublication/paperDigest.aspx?paperID=ea79ace0-6f84-493a-beb6-7f0392a8de6f