全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

基于FastText模型的匿名数据文本分类研究
Research on Text Classification of Anonymous Data Based on FastText Model

DOI: 10.12677/SA.2023.122060, PP. 563-568

Keywords: 数据匿名化,FastText,TF-IDF,文本分类
Data Anonymization
, FastText, TF-IDF, Text Classification

Full-Text   Cite this paper   Add to My Lib

Abstract:

本文主要讨论在数据匿名化情况下,FastText模型相比其它机器学习模型,对文本分类问题是否是更优解。本文对公开新闻数据集的20万条中文文本数据进行匿名化处理,然后分别采用逻辑回归、LGBM、随机森林和FastText模型进行分类,并且针对结果,对FastText提出两方面的改进,通过多个评价指标进行评价后,FastText模型无论在准确率上,还是在运行效率上,均比其它模型更优秀。
This paper focuses on whether the FastText model is a better solution to the text classification problem compared to other machine learning models in the case of data anonymization. In this paper, 200,000 Chinese text data from public news datasets are anonymized, and then logistic regression, LGBM, random forest and FastText models are used for classification, and two improvements to FastText are proposed for the results. The FastText model is better than other models in terms of both accuracy and efficiency.

References

[1]  孙广中, 魏燊, 谢幸. 大数据时代中的去匿名化技术及应用[J]. 信息通信技术, 2013, 7(6): 52-57.
[2]  李媛. 大数据时代个人信息保护研究[D]: [博士学位论文]. 重庆: 西南政法大学, 2016.
[3]  代令令, 蒋侃. 基于fastText的中文文本分类[J]. 计算机与现代化, 2018(5): 35-40+85.
[4]  冯勇, 屈渤浩, 徐红艳, 王嵘冰, 张永刚. 融合TF-IDF和LDA的中文FastText短文本分类方法[J]. 应用科学学报, 2019, 37(3): 378-388.
[5]  霍光煜, 张勇, 孙艳丰, 尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[6]  阴爱英, 吴运兵, 郑一江, 余小燕. 基于fastText模型的词向量表示改进算法[J]. 福州大学学报(自然科学版), 2019, 47(3): 314-319.
[7]  范昊, 李鹏飞. 基于FastText字向量与双向GRU循环神经网络的短文本情感分析研究——以微博评论文本为例[J]. 情报科学, 2021, 39(4): 15-22.
https://doi.org/10.13833/j.issn.1007-7634.2021.04.003
[8]  Britton, K.E. and Britton-Colonnese, J.D. (2017) Privacy and Security Issues Surrounding the Protection of Data Generated by Continuous Glucose Monitors. Journal of Diabetes Science and Technology, 11, 216-219.
https://doi.org/10.1177/1932296816681585
[9]  蔡婷. 基于数据混淆的隐私保护机制研究[D]: [硕士学位论文]. 西安: 西安建筑科技大学, 2016.
https://doi.org/10.27393/d.cnki.gxazu.2016.000150
[10]  叶雪梅, 毛雪岷, 夏锦春, 王波. 文本分类TF-IDF算法的改进研究[J]. 计算机工程与应用, 2019, 55(2): 104-109+161.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133