|
软件学报 2008
基于tri-training和数据剪辑的半监督聚类算法, PP. 663-673 Keywords: 半监督聚类,半监督分类,k-均值,seeds集,tri-training,depuration数据剪辑 Abstract: 提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在tri-training训练过程中结合基于最近邻规则的depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于tri-training和数据剪辑的de-tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能.
|