%0 Journal Article %T 基于mapreduce的文本层次聚类并行化 %A 余晓山 %A 吴扬扬 %J 计算机应用 %D 2014 %X ?针对传统的层次聚类算法在处理大规模文本时可扩展性不足的问题,提出基于mapreduce编程模型的并行化文本层次聚类算法。将基于文本向量分量组特征统计的垂直数据划分算法应用于mapreduce的数据分发,将mapreduce的排序特性应用于合并点的选择,使得算法更加高效,同时有利于提高聚类精度。实验结果表明了利用该算法进行大规模文本聚类的有效性及良好的可扩展性。 %U http://www.joca.cn/CN/abstract/abstract17283.shtml