|
武汉理工大学学报 2010
基于非均衡数据集的新型混合重取样算法Abstract: ?在分析重取样技术的基础上,设计并实现了自适应选择近邻的混合重取样算法。该方法结合过取样和欠取样方法的优势,改进了smote过取样算法在产生合成样本过程中存在的盲目性及只能复制生成数值属性的问题,新算法能根据实例样本集内部分布的真实特性,自适应调整近邻选择策略,对不同属性的数据采取不同的复制方法生成新的少数类实例,控制和提高合成样本的质量;并通过对合成之后的数据集用改进的邻域清理方法进行适当程度欠取样,去掉多数类中的冗余实例和边界上的噪音数据,减少其规模,在一定程度上达到相对均衡,从而可有效地处理非均衡数据分类问题,提高分类器的性能。
|