|
计算机科学 2014
面向大规模数据的分层近邻传播聚类算法Keywords: 数据聚类,近邻传播,分层推举,聚类中心中图法分类号tp301.6文献标识码a Abstract: 近邻传播(affinitypropagation,ap)聚类具有不需要设定聚类个数、快速准确的优点,但无法适应于大规模数据的应用需求。针对此问题,提出了分层近邻传播聚类算法。首先,将待聚类数据集划分为若干适合ap算法高效执行的子集,分别推举出各个子集的聚类中心;然后对所有子集聚类中心再次执行ap聚类,推举出整个数据集的全局聚类中心;最后根据与这些全局聚类中心的相似度对聚类样本进行划分,从而实现对大规模数据的高效聚类。在真实和模拟数据集上的实验结果均表明,与ap聚类和自适应ap聚类相比,该方法在保证较好聚类效果的同时,极大地降低了聚类的时间消耗。
|