%0 Journal Article %T Spark环境下基于综合权重的不平衡数据集成分类方法 %A 丁家满 %A 姜瑛 %A 游进国 %A 王思晨 %A 贾连印 %J 中山大学学报(自然科学版) %D 2019 %X 摘要 不平衡数据分类经常面临样本严重不平衡、少数类样本分类精度低的问题,随着数据规模增大,分类效率也成为了瓶颈问题.针对以上问题,本文结合spark高效的数据处理能力,提出了一种Spark环境下基于综合权重的不平衡数据集成分类方法.该方法首先依照多数类样本中每类样本的权重以及少数类样本量获得的综合权重进行采样,并与少数类样本组成平衡规模的训练数据集;其次,采用基于相关性的特征选择方法选择最优的特征子集,并对随机森林算法进行改进优化以及利用其获得子分类器.最后在Spark环境下,以UCI数据集进行实验验证.实验结果表明本文方法不仅提高了整体分类精度,而且提升了分类效率 %K 不平衡数据分类 %K 样本采集 %K 综合权重 %K 随机森林 %K Spark %U http://xwxt.sict.ac.cn/CN/abstract/abstract4821.shtml