|
计算机应用 2015
基于hadoop的海量嘈杂数据决策树算法的实现Keywords: hadoop,c4.5,不确定概率,嘈杂数据,并行化 Abstract: ?针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响,以及传统驻留内存算法处理海量数据困难的问题,提出一种基于hadoop平台的不确定概率c4.5算法——ip-c4.5算法。在训练模型时,ip-c4.5算法认为用于建树的训练集是不可靠的,通过用基于不确定概率的信息增益率作为分裂属性选择标准,减小了训练集的嘈杂性对模型的影响。在hadoop平台下,通过将ip-c4.5算法以文件分裂的方式进行mapreduce化程序设计,增强了处理海量数据的能力。与c4.5和完全信条树(ccdt)算法的对比实验结果表明,在训练集数据是嘈杂的情况下,ip-c4.5算法的准确率相对更高,尤其当数据嘈杂度大于10%时,表现更加优秀;并且基于hadoop的并行化的ip-c4.5算法具有处理海量数据的能力。
|