|
现代图书情报技术 2015
突发事件检测的mapreduce并行化实现Keywords: 突发事件检测,mapreduce,分布式处理,lda主题模型 Abstract: ?[目的]在大数据环境下,从文本流中准确且快速地检测出特定领域的突发事件。[方法]利用kleinberg突发检测方法和lda主题模型方法,将其扩展到mapreduce并行框架中,实现并行语料预处理、并行突发词检测、并行突发文档过滤和并行主题提取。[结果]对新闻文本流进行模拟仿真实验,结果表明,该并行方法在特定领域突发事件检测中准确率p、召回率r和调和平均值f分别最高可达87.50%、77.78%和82.35%。[局限]基于mapreduce的并行方法难以实现大规模动态文本流在线(online)实时(real-time)突发事件检测。[结论]与传统串行突发事件检测方法相比,所构建的分布式并行化方法在保证检测结果正确性的同时,具有良好的可扩展性,性能得到较大提升。
|