|
中山大学学报(自然科学版) 2019
结合卷积和长短期记忆网络的长文分类方法Keywords: 自然语言处理,长文本分类,随机抽样,特征提取,卷积长短期记忆网络 Abstract: 摘要 现如今互联网成为了传播信息的主要平台,人们使用关键词在海量的文档中快速获取想要的信息.这要求论文文献有明确的分类和标签.传统的文献分类方法通常提取关键词或关键句,利用文本的局部信息进行分析,对于方向相似的科技论文,传统的局部分析的方法区分度不高,分类不够明确易产生混淆.本文提出了一种对文献进行全局分析,自动生成标签的长文分类方法.为了降低卷积神经网络Convolutional Neural Network,CNN的深度,同时通过遍历全文捕获全局信息,本文提出了随机抽样算法将文献拆分为多个部分.然后,结合卷积神经网络和长短期记忆网络Long ShortTerm Memory,LSTM,提取各部分的局部特征,记忆各部分特征的相关性,得出分类结果.实验结果表明,与基于局部分析的文本分类方法相比,本文提出的长文分类方法能够更准确地区分方向相似的长文文献
|