|
中山大学学报(自然科学版) 2018
软件缺陷预测中基于排序集成的特征选择方法Keywords: 软件缺陷预测,特征选择,特征权重,排序集成 Abstract: 摘要 在软件缺陷预测中,缺陷数据集中往往存在冗余或不相关特征,需要对数据集进行特征选择.为了避免软件缺陷预测中常见的基于排序的特征选择方法的不稳定性,提出一种基于排序集成的特征选择方法.首先,分别执行相关系数、信息增益率和ReliefF三种特征选择方法,得到特征排序序列,赋予每个特征一个权重,随后,将三种方法得到的每个特征的权重相加求和,作为该特征的总权重.最后,根据特征总权重对特征从高到低进行排序,并按照特征百分比从前往后依次选取特征.在实证研究中,以NASA的11个数据集为实验对象,采用逻辑回归算法构建预测模型,并采用AUC指标度量不同预测模型的分类性能.实验结果验证了基于排序集成的特征选择方法的有效性
|