|
中山大学学报(自然科学版) 2018
一种改进过采样的不平衡数据集成分类算法Keywords: 不平衡数据,子簇划分,概率分布,过采样,AdaBoost Abstract: 摘要 不平衡数据分类是机器学习和数据挖掘的重要环节.类分布不均衡和类中“困难样本”会导致许多传统分类算法效果不理想.为此,本文提出一种改进过采样的不平衡数据集成分类算法,一方面利用多数类样本划分少数类样本为不同子簇,充分考虑类间与类内数据的不平衡,根据子簇的概率分布进行过采样,并且对过采样后的样本及时进行修正,保证合成样本质量;另一方面利用AdaBoost算法处理不平衡数据的优势,采用决策树作为基本分类器,在每次迭代初始利用过采样方法合成样本,平衡训练信息,得到最终分类模型.7组UCI数据实验表明改进过采样的不平衡数据集成分类算法可以显著提高分类的精度,进而提升分类器的性能
|