|
软件学报 2010
一种基于语料特性的聚类算法, PP. 2802-2813 Keywords: cadic(clustering,algorithm,based,on,the,distributions,of,intrinsic,clusters),文本聚类,模型不匹配,重标度,信息检索 Abstract: 为寻求模型不匹配问题的一种恰当的解决途径,提出了基于语料分布特性的cadic(clusteringalgorithmbasedonthedistributionsofintrinsicclusters)聚类算法。cadic以重标度的形式隐式地将语料特性融入算法框架,从而使算法模型具备更灵活的适应能力。在聚类过程中,cadic选择一组具有良好区分度的方向构建cadic坐标系,在该坐标系下统计固有簇的分布特性,以构造各个坐标轴的重标度函数,并以重标度的形式对语料分布进行隐式的归一化,从而提高聚
|