%0 Journal Article %T 并行计算框架Spark中一种新的RDD分区权重缓存替换算法 %A 刘恒 %A 谭良 %J 中山大学学报(自然科学版) %D 2018 %X 摘要 并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重值计算不准确,考虑因素不全面,度量方法不够细致,影响了缓存的命中率和作业执行的效率.提出一种新的RDD分区的权重缓存替换算法——WCSRP.为了使RDD分区权重值的计算更加准确,WCSRP不仅综合考虑RDD的计算代价、使用次数、分区的大小和生命周期四大因素对权重的影响,而且还增加考虑了Task执行时Locality Level这个因素,并对以上五个因素进行了量化计算.实验结果表明WCSRP算法让RDD分区权重值的计算更准确,提高了内存资源利用率和作业执行效率 %K Spark %K 弹性分布式数据集 %K 缓存替换策略 %K 并行计算 %K RDD缓存 %U http://xwxt.sict.ac.cn/CN/abstract/abstract4657.shtml