|
中山大学学报(自然科学版) 2016
基于相互依存冗余度量的k-modes算法Keywords: k-modes算法,分类型属性,相互依存冗余度量 Abstract: 摘要 距离度量是聚类算法的基础,它对算法的效果有很大的影响.然而分类型数据的聚类是学习算法中重要而棘手的问题.传统的k-modes算法采用0-1匹配方法定义每两个对象属性值之间的距离,忽视了属性间的相互关系对距离的影响.针对这个问题,本文基于相互依存冗余度量定义了一种新的距离,该距离由内部距离和外部距离两个部分决定.这种度量方法不仅表现出某个属性本身的差异性,而且表现出其他属性对该属性的影响程度.本文与基于其他距离度量的k-modes算法进行实验比较,结果表明基于相互依存冗余度量的k-modes算法能有效地提高算法的聚类精度
|