|
中山大学学报(自然科学版) 2019
池化和注意力相结合的新闻文本分类方法Keywords: 文本分类,注意力机制,最大池化,机器学习 Abstract: 摘要 信息时代互联网上产生了海量的文本数据,它们蕴含着巨大的商业和科研价值,由此文本分类技术得到了广泛的关注.文本分类在信息检索等应用领域占据着重要地位,同时也是自然语言处理等研究的关键技术.本文针对新闻文本的特点以及深度学习分类方法训练时间长的问题,提出了一种池化和注意力相结合的模型,并将其应用于中文新闻文本分类.该模型首先利用最大池化和平均池化提取出文本特征,然后利用注意力机制为句子生成权重,使用两者的拼接结果进行分类.模型在NLPCC2014新闻文本分类的数据集上进行了实验,一级类别的分类正确率达到了83.96%,接近该数据集上的最优结果,而且比标准深度学习算法的收敛时间更短
|