|
- 2018
大数据架构下的热词发现与可视化技术研究Keywords: Hadoop,TF-IDF并行化,热词发现,可视化 Abstract: 摘 要: 在大数据背景下,数据膨胀的速度已经远远超出了人工分析的能力范围,因此,如何在大数据时代构建 热词发现与可视化机制尤为紧迫和重要。本文通过研究Hadoop大数据平台下的MapReduce计算框架和TF-IDF算法, 给出了TF-IDF算法在Hadoop分布式并行化计算平台下的具体实现,并以此并行化算法作为大数据架构下热词发现技 术的核心算法,然后利用可视化工具对结果进行分析处理。结果表明,TF-IDF并行化算法可以较好地发现大规模数据 量中的热点词汇;与传统单机下的算法相比,该算法处理效率更高。
|