%0 Journal Article %T 基于最小生成树的K-均值算法设计与并行化实现 %J 南京邮电大学学报(自然科学版) %D 2017 %X 随着数据处理规模的不断扩大,对算法执行效率的要求不断提高。Spark作为基于内存计算的分布式并行化框架得到了前所未有的关注和广泛应用。为了提高聚类精度和效率,研究了K-means算法的改进及其在Spark平台上的并行化。针对K-means初始聚类中心选取的随机性问题,设计了基于最小生成树的K-means算法MST-K,该算法采用最小生成树对原始结点进行初始划分,减轻初始聚类中心随机选取对聚类结果的影响;采用余弦相似度公式来避免由于各属性衡量单位的差异性而导致的“相似不相同”问题。针对MST-K算法的执行效率,设计了将之在Spark平台上分布式并行化实现的方法。在Spark上并行化运行以及与Spark MLlib中提供的K-means进行准确性对比的实验结果表明:MST-K算法在Spark平台上具有良好的时效性和聚类精度。 %K K-均值 最小生成树 Spark 并行化 %U http://nyzr.njupt.edu.cn/ch/reader/view_abstract.aspx?file_no=201705014&flag=1