|
天津大学学报(自然科学与工程技术版) 2005
基于rough集的决策树算法, PP. 842-846 Keywords: rough集,决策树,属性分类粗糙度,预剪枝,不相容数据 Abstract: ?????针对基于rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于rough集的决策树算法.采用一个新的选择属性的测度――属性分类粗糙度作为选择属性的启发式,该测度较rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单采取了一种新的剪枝方法――预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理.对uci机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较id3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当.算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集.
|