|
中山大学学报(自然科学版) 2019
一种基于混合采样的非均衡数据集分类算法Abstract: 摘要 在非均衡数据集中,针对使用单一的过采样或欠采样方法可能造成少数类样本过拟合或者丢失含有重要信息样本的问题.提出了一种新的基于混合采样的随机森林算法(USI).首先通过引进“变异系数”检测出样本集的稀疏域和密集域,然后对稀疏域中的少数类样本,提出了一种改进的过采样方法(USMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS),最后将平衡后的数据集送入随机森林分类器中进行训练.通过实验表明,该算法与传统算法相比,取得了更高的G-mean值,F-value值,具有更高的综合分类准确率
|