|
计算机应用 2013
基于mapreduce的k-medoids并行算法Keywords: k-medoids,云计算,mapreduce,并行计算,hadoop Abstract: ?为了解决传统k-medoids聚类算法在处理海量数据信息时所面临的内存容量和cpu处理速度的瓶颈问题,在深入研究k-medoids算法的基础之上,提出了基于mapreduce编程模型的k-medoids并行化算法思想。map函数部分的主要任务是计算每个数据对象到簇类中心点的距离并(重新)分配其所属的聚类簇;reduce函数部分的主要任务是根据map部分得到的中间结果,计算出新簇类的中心点,然后作为中心点集给下一次mapreduce过程使用。实验结果表明:运行在hadoop集群上的基于mapreduce的k-medoids并行化算法具有较好的聚类结果和可扩展性,对于较大的数据集,该算法得到的加速比更接近于线性。
|