基于mapreduce的特征选择并行化研究
Keywords: 特征选择,局部学习,分布式,mapreduce
Abstract:
特征选择已经成为一种对高维数据进行预处理的必不可少的手段。随着数据规模的爆炸性增长,传统的特征选择算法已经不能满足当前高维大规模数据的处理要求。采用google的mapreduce编程模型,设计了一种分布式的基于局部学习的特征选择算法d-logsf。在多个现实和合成数据集上的实验表明,分布式特征选择算法d-logsf具有较好的可靠性,且与传统特征选择算法logsf相比可以获得接近线性的加速比,同时可以有效处理大规模数据集。
Full-Text