%0 Journal Article %T 具有高可理解性的二分决策树生成算法研究 %A 蒋艳凰? %A 杨学军? %A 赵强利? %J 软件学报 %P 1996-2005 %D 2003 %X 二分离散化是决策树生成中处理连续属性最常用的方法,对于连续属性较多的问题,生成的决策树庞大,知识表示难以理解.针对两类分类问题,提出一种基于属性变换的多区间离散化方法--rcat,该方法首先将连续属性转化为某类别的概率属性,此概率属性的二分法结果对应于原连续属性的多区间划分,然后对这些区间的边缘进行优化,获得原连续属性的信息熵增益,最后采用悲观剪枝与无损合并剪枝技术对rcat决策树进行简化.对多个领域的数据集进行实验,结果表明:对比二分离散化,rcat算法的执行效率高,生成的决策树在保持分类精度的同时,树的规模小,可理解性强. %K 机器学习 %K 二分决策树 %K 信息熵增益 %K 剪枝 %K rcat算法 %U http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=20031203&flag=1