全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

基于深度学习的垃圾邮件检测
Spam Detection Based on Deep Learning

DOI: 10.12677/CSA.2023.134075, PP. 764-772

Keywords: 垃圾邮件,文本分类,深度学习,双向门控循环单元,注意力机制
Spam
, Text Classification, Deep Learning, BiGRU, Attention Mechanism

Full-Text   Cite this paper   Add to My Lib

Abstract:

邮件是日常生活中的一种通讯工具,但垃圾邮件对用户造成严重困扰,因此改进垃圾邮件识别技术、提升其准确率和效率具有重要现实意义。在文本分类领域,深度学习有很好的应用效果。故文章提出了一种基于CNN的BiGRU-Attention模型,旨在充分利用CNN的特征提取能力和BiGRU的全局特征提取能力。引入注意力机制能够突出显示重要文本,前后共经过两层双向门控循环单元,从而更全面地提取邮件文本特征。实验数据选取Trec06c数据集,并与其他分类模型对比,结果表明,检测准确率达到91.56%。
Email is a communication tool in daily life, but spam has caused serious problems for users, As a result, it is crucial to improve spam identification technology and improve its accuracy and efficiency. In the field of text classification, deep learning has a good application effect. In order to fully utilize CNN’s feature extraction capabilities and BiGRU’s global feature extraction capabilities, this article suggests a CNN-based BiGRU-Attention model. The introduction of the attention mechanism can highlight important text, which passes through two layers of two-way gated loop units before and after, so as to extract more comprehensive features of email text. The experimental data is selected from Trec06c dataset and compared with other classification models. The results show that the detection accuracy reaches 91.56%.

References

[1]  冯军军, 李力. 垃圾邮件检测与绕过技术的研究[J]. 电脑知识与技术, 2021, 17(7): 36-37.
[2]  冯军军, 李力. 机器学习在垃圾邮件过滤中的实现[J]. 电脑知识与技术, 2021, 17(8): 154-155.
[3]  吴宗卓. 基于图和K近邻的文本分类算法[J]. 微型电脑应用, 2021, 37(10): 46-49.
[4]  黄鹤, 荆晓远, 董西伟, 等. 基于Skip-Gram的CNNs文本邮件分类模型[J]. 计算机技术与发展, 2019, 29(6): 143-147.
[5]  彭毅, 姜昕宇. 基于BERT_DPCNN文本分类算法的垃圾邮件过滤系统[J]. 电脑知识与技术, 2022, 18(22): 66-69.
[6]  吴贵珍. 基于词向量和CNN-BIGRU的情感分析研究[D]: [硕士学位论文]. 镇江: 江苏科技大学, 2022.
[7]  顾孟钧, 冯文舟, 陈中兵. 不同长度下中文垃圾邮件分类模型的研究[J]. 工业信息安全, 2022(7): 28-35.
[8]  贾澎涛, 孙炜. 基于深度学习的文本分类综述[J]. 计算机与现代化, 2021(7): 29-37.
[9]  Kim Y. (2014) Convolutional Neural Networks for Sentence Classifica-tion. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, 25-29 October 2014, 1746-1751.
https://doi.org/10.3115/v1/D14-1181
[10]  邵珊珊, 王立非, 刘智洋. 基于大数据的中外标准中英文本情感分析[J]. 中国标准化, 2019(17): 62-67.
[11]  徐博龙. 应用Jieba和Wordcloud库的词云设计与优化[J]. 福建电脑, 2019, 35(6): 25-28.
[12]  朱昶胜, 康亮河, 冯文芳. 基于自适应鲸鱼优化算法结合Elman神经网络的股市收盘价预测算法[J]. 计算机应用, 2020, 40(5): 1501-1509.
[13]  Harris, S. and Harris, D. (2014) 6—Architecture. In: Harris, S.L. and Harris, D.M., Eds., Digital Design and Computer Architecture, 2nd Edition, Elsevier, Amsterdam, 294-369.
https://doi.org/10.1016/B978-0-12-394424-5.00006-9
[14]  Mikolov, T., Sutskever, I., Chen, K., et al. (2013) Dis-tributed Representations of Words and Phrases and Their Compositionality. Proceedings of the 27th Annual Conference on Neural Information Processing Systems, Lake Tahoe, 5-10 December 2013, 3136-3144.
[15]  周航帆, 周莲英. 基于会话记录的Word2Vec音乐推荐算法研究[J]. 通信技术, 2019, 52(4): 850-857.
[16]  薛兴荣, 靳其兵. 基于词典的文本极性计算及分类研究[J]. 网络安全技术与应用, 2020(4): 57-61.
[17]  杨星鑫, 吕泽均. 基于LSTM的无人机轨迹识别技术研究[J]. 现代计算机, 2020(5): 18-22+25.
[18]  Hochreiter, S. and Schmidhuber, J. (1997) Long Short-Term Memory. Neural Computation, 9, 1735-1780.
https://doi.org/10.1162/neco.1997.9.8.1735
[19]  Cho, K., van Merri?nboer, B., Gulcehre, C., et al. (2014) Learning Phrase Representations Using RNN Encoder-Decoder for Statistical Machine Translation. Proceedings of the 2014 Con-ference on Empirical Methods in Natural Language Processing (EMNLP), Doha, 25-29 October 2014, 1724-1734.
https://doi.org/10.3115/v1/D14-1179
[20]  胡玉琦, 李婧, 常艳鹏, 等. 引入注意力机制的BiGRU-CNN情感分类模型[J]. 小型微型计算机系统, 2020, 41(8): 1602-1607.
[21]  赵晋斌, 王凯, 李盼. 基于深度学习的多维度证据要素关联关系抽取研究[J]. 中国电子科学研究院学报, 2021, 16(12): 1251-1256.
[22]  赵宇轩, 胡怀湘. 基于BiGRU-Attention-CNN模型的垃圾邮件检测方法[J]. 计算机与现代化, 2021(4): 122-126.
[23]  徐娟, 卞良. 基于SVM的中文垃圾邮件预测系统研究[J]. 数字技术与应用, 2020, 38(1): 38-39.
[24]  吴贵珍, 王芳, 黄树成. 基于词向量与CNN-BIGRU的情感分析研究[J]. 软件导刊, 2022, 21(8): 27-32.
[25]  宋丹. 基于改进的卷积神经网络的垃圾邮件过滤方法[D]: [硕士学位论文]. 淮南: 安徽理工大学, 2021.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133