%0 Journal Article %T MapReduce并行化压缩近邻算法 %A 张明阳 %A 王婷婷 %A 翟俊海 %A 郝璞 %J 中山大学学报(自然科学版) %D 2017 %X 摘要 压缩近邻(CNN:Condensed Nearest Neighbors)是Hart针对K-近邻(K-NN:K-Nearest Neighbors)提出的样例选择算法,目的是为了降低K-NN算法的内存需求和计算负担.但在最坏情况下,CNN算法的计算时间复杂度为O(n3),n为训练集中包含的样例数.当CNN算法应用于大数据环境时,高计算时间复杂度会成为其应用的瓶颈.针对这一问题,本文提出了基于MapReduce并行化压缩近邻算法.在Hadoop环境下,编程实现了并行化的CNN,并与原始的CNN算法在6个数据集上进行了实验比较.实验结果显示,本文提出的算法是行之有效的,能解决上述问题 %K 压缩近邻 %K K-近邻 %K 样例选择 %K MapReduce %U http://xwxt.sict.ac.cn/CN/abstract/abstract4236.shtml