|
中山大学学报(自然科学版) 2018
一种改进的MapReduce互信息文本特征选择机制Keywords: 文本分类,特征提取,互信息,云计算,MapReduce Abstract: 摘要 文本分类是数据挖掘的重要环节,而特征选择又是文本分类的核心步骤,互信息方法是常用的特征选择评价函数,但该方法过于简单,分类精度相对较低.基于此,本文提出一种基于MapReduce的互信息文本特征选择机制,一方面对传统的互信息计算公式进行改进,并且引入熵的思想对公式计算加以修正,使特征词选择更加得当,从而提高后期分类精度;另一方面引入MapReduce技术,利用其处理大规模数据的优势,缩短文本训练和分类的过程.实验表明基于MapReduce的互信息文本特征选择机制可以显著提高文本分类的精度,而且明显提升执行效率.
|