%0 Journal Article %T 复杂分布数据的二阶段聚类算法 %A 公茂果? %A 王爽? %A 马萌? %A 曹宇? %A 焦李成? %A 马文萍? %J 软件学报 %P 2760-2772 %D 2011 %R 10.3724/SP.J.1001.2011.03903 %X 提出了一种用于复杂分布数据的二阶段聚类算法(two-phaseclustering,简称tpc),tpc包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布数据的流形进化聚类(manifoldevolutionaryclustering,简称mec)对第1阶段得到的聚类中心进行类别划分;最后综合两次聚类结果整理得到最终聚类结果.该算法基于改进的k-均值算法和mec算法.在进化聚类算法的基础上引入流形距离,使得算法能够胜任复杂分布的数据聚类问题.同时,算法降低了引入流形距离所带来的计算量.在分布各异的7个人工数据集和7个uci数据集测试了二阶段聚类算法,并将其效果与遗传聚类算法、k均值算法和流形进化聚类算法做了比较.实验结果表明,无论对于简单或复杂、凸或非凸的数据,tpc都表现出良好的聚类性能,并且计算时间与mec相比明显减少. %K 数据挖掘 %K 聚类 %K k-均值算法 %K 进化算法 %K 流形 %U http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=3903&flag=1