%0 Journal Article %T 基于随机森林和欠采样集成的垃圾网页检测 %A 陈木生 %J 计算机应用 %D 2016 %R 10.11772/j.issn.1001-9081.2016.03.731 %X 摘要 为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK-2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果更好,准确率、F1测度、ROC曲线下面积(AUC)等指标提高至少14%,13%和11%。与Web spam challenge 2007 优胜团队的竞赛结果相比,该集成分类器算法在F1测度上提高至少1%,在AUC上达到最优结果 %K 垃圾网页检测 %K 随机森林 %K 欠采样 %K 集成分类器 %K 机器学习 %U http://www.joca.cn/CN/abstract/abstract19108.shtml