全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

基于柔性粒度的文本摘要自动化技术创新研究
Research on Innovation of Text Summarization Automation Technology Based on Flexible Granularity

DOI: 10.12677/CSA.2021.1110258, PP. 2546-2554

Keywords: 文本摘要自动化,子词,字节对编码,粒度
Text Automation
, Sub Words, Encoding Byte Pairs, Granularity

Full-Text   Cite this paper   Add to My Lib

Abstract:

本文对使用序列到序列模型进行文本摘要时的方法进行研究,重点分析了集外词难以生成以及单词间联系缓慢两个不足产生的原因;结合字节对编码算法,提出了柔性粒度字节对编码算法FG-BPE。改进后的FG-BPE算法将完整单词分割为不相交的子词单元,通过降低文本粒度大小解决缓解集外词难以生成的问题,通过子词单元二次分割实现单词之间联系的更好学习。关于Gigaword集的实验证明,与原始子词分割算法相比,FG-BPE实现了一元组、二元组及最长公共子串的共现召回率整体提升。
In this paper, the method of text summarization using sequence-to-sequence model is studied, and the causes of two shortcomings, which are difficult to generate extra words and slow connection between words, are emphatically analyzed. Combined with byte pair coding algorithm, a flexible granularity byte pair coding algorithm FG-BPE is proposed. The improved FG-BPE algorithm divides the whole word into disjoint sub-word units, solves the problem that it is difficult to generate words outside the set by reducing the text granularity, and realizes better learning of the relationship between words through the secondary segmentation of sub-word units. Experiments on Gigaword set show that compared with the original sub-word segmentation algorithm, FG-BPE can improve the recall rate of co-occurrence of one tuple, two tuples and the longest common substring as a whole.

References

[1]  张敏, 刘建华, 谢靖. 网络科技信息监测中富文档识别与信息提取技术研究[J]. 情报科学, 2017(1): 128-132.
[2]  唐晓波, 顾娜, 谭明亮. 基于句子主题发现的中文多文档自动摘要研究[J]. 情报科学, 2020(3): 11-16.
[3]  刘志明, 于波, 欧阳纯萍, 等. 基于主题的SE-TextRank情感摘要方法[J]. 情报工程, 2017(3): 97-104.
[4]  罗毅辉, 熊曙初. 一种集成框架下的分布式多文档自动摘要方法[J]. 情报杂志, 2013(11): 133-136.
[5]  马骏. 自动文本摘要技术的关键问题研究[D]: [硕士学位论文]. 成都: 电子科技大学, 2020.
[6]  黄波, 刘传才. 基于加权TextRank的中文自动文本摘要[J]. 计算机应用研究, 2020, 37(2): 407-410.
[7]  邹蕾, 崔斌, 樊超, 孙豫峰. 基于双向编码文本摘要-长短期记忆-注意力的检察建议文本自动生成模型[J]. 科学技术与工程, 2021, 21(25): 10780-10788.
[8]  王凯祥. 面向查询的自动文本摘要技术研究综述[J]. 计算机科学, 2018, 45(S2): 12-16.
[9]  王晴. 基于统计的多文本网站文本内容抽取算法[J]. 安徽电子信息职业技术学院学报, 2021, 20(4): 6-12.
[10]  孙宝山, 谭浩. 基于ALBERT-UniLM模型的文本自动摘要技术研究[J/OL]. 计算机工程与应用: 1-8. http://kns.cnki.net/kcms/detail/11.2127.TP.20210802.0922.002.html, 2021-08-02.
[11]  侯圣峦, 张书涵, 费超群. 文本摘要常用数据集和方法研究综述[J]. 中文信息学报, 2019, 33(5): 1-16.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133