全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...
-  2018 

基于Spark 的 CVFDT 分类算法并行化研究

DOI: 10.3969/ j. issn.1673-629X.2018.06.008

Keywords: 数据流, CVFDT, 并行化, Spark, 弹性分布式数据集

Full-Text   Cite this paper   Add to My Lib

Abstract:

以提升流数据的分类挖掘效率为目标,研究将概念适应快速决策树算法(CVFDT)部署到流数据计算平台 Spark 上进行并行化的方案。 设计了 CVFDT 基于 Spark 的并行化实现方案,首先对 CVFDT 算法进行属性间并行化改造,即分割点计算过程中的并行化;然后基于 Spark 在 CVFDT 的建树过程中将节点的所有属性列表转化为 Spark 特有的弹性分布式数据集 RDD,通过计算由每个 RDD 生成的并行化任务,汇总并且比较每个最佳分割点,再计算 Hoeffding 边界作为节点分裂条件找到最佳分割点,从而递归创建决策树。 实验结果表明,在 Spark 集群环境下,CVFDT 算法的分类效率相对于单机环境有显著提高,改进后的并行化 CVFDT 算法对大规模流数据处理有良好的适应能力,而且合理设定 RDD 过滤可使分类效率进一步提高

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133