%0 Journal Article %T 具有高可理解性的二分决策树生成算法研究 %A 杨学军 %A 蒋艳凰 %A 赵强利 %J - %D 2003 %X 二分离散化是决策树生成中处理连续属性最常用的方法,对于连续属性较多的问题,生成的决策树庞大,知识表示难以理解.针对两类分类问题,提出一种基于属性变换的多区间离散化方法--RCAT,该方法首先将连续属性转化为某类别的概率属性,此概率属性的二分法结果对应于原连续属性的多区间划分,然后对这些区间的边缘进行优化,获得原连续属性的信息熵增益,最后采用悲观剪枝与无损合并剪枝技术对RCAT决策树进行简化.对多个领域的数据集进行实验,结果表明:对比二分离散化,RCAT算法的执行效率高,生成的决策树在保持分类精度的同时,树的规模小,可理解性强 %K 机器学习 二分决策树 信息熵增益 剪枝 RCAT算法 %U http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=20031203&flag=1