|
短剧用户观感评价情感分析
|
Abstract:
短剧随着时代发展逐渐崛起,成为当今国内外新潮的娱乐载体。本文爬取腾讯短剧品牌十分剧场的短剧用户评价,对该不平衡样本数据进行情感分析,比较多种模型与模型组合的效率与效果。1) 使用Word2vec的连续词袋模型将预处理后的文本转为词向量,构建LSTM/BILSTM模型,两者无效果差别,LSTM所用时间最短;2) 构建TextCNN + LSTM/BILSTM模型,使用TextCNN获取向量特征,通过LSTM/BILSTM学习情感规律,稀少数据的F1-Score提升约10%;3) 构建TextCNN + LSTM + Muti_Head_Attention模型,添加多头注意力机制把握字与字之间的多重联系,耗时增加一倍,稀少数据的F1-Score上限再次提升1%;4) 使用随机删除增强数据会以降低20%的精准率的代价提高10%的召回率;5) 在第3点的基础上在卷积层中添加残差连接,稀少数据的F1-Score上限提高2%;6) 使用Bert/Roberta的分词器和模型取代Word2vec与传统RNN,得到的结果对比第5点,提升约为9%/12%,泛化性更强,时间和硬件成本大幅提升,但添加TextCNN、LSTM与多头注意力后,效果反而出现下降。
As Micro-Dramas grow in popularity worldwide, this article evaluates user reviews from Tencent’s “Shifen Theater”, analyzing imbalanced data sentiment and comparing various models and combinations. 1) Word2Vec’s bag-of-words model turns preprocessed text into vectors, building LSTM/BiLSTM models—both perform poorly, with LSTM being the fastest; 2) The TextCNN + LSTM/ BiLSTM model uses TextCNN for vector features and LSTM/BiLSTM for sentiment learning, boosting the F1-Score for rare data by about 10%; 3) Adding Multi-Head Attention to TextCNN + LSTM/BiLSTM captures intricate character relationships, doubling the runtime and increasing the F1-Score by 1%; 4) Random deletion enhances data but sacrifices 20% precision for 10% better recall; 5) Add residual connections to the convolution layers in model 3, improving the F1-Score by 2% on sparse data; 6) Replacing Word2Vec and traditional RNNs with Bert/Roberta improves results by 11%/14% over the third model, offers better generalizability, but increases time and cost significantly. However, incorporating TextCNN, LSTM, and Multi-Head Attention can decrease performance.
[1] | 国家广播电视总局办公厅. 国家广播电视总局办公厅关于进一步加强网络微短剧管理实施创作提升计划有关工作的通知[EB/OL]. https://www.nrta.gov.cn/art/2022/12/27/art_113_63062.html, 2022-11-14, 2024-08-31. |
[2] | 赵妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报, 2010, 21(8): 1834-1848. |
[3] | 赵妍妍, 秦兵, 石秋慧, 等. 大规模情感词典的构建及其在情感分类中的应用[J]. 中文信息学报, 2017, 31(2): 187-193. |
[4] | 严军超, 赵志豪, 赵瑞. 基于机器学习的社交媒体文本情感分析研究[J]. 信息与电脑(理论版), 2019, 31(20): 44-47. |
[5] | 梁宁. 基于注意力机制及深度学习的文本情感分析研究[D]: [硕士学位论文]. 北京: 华北电力大学, 2019. |
[6] | 顾昕健, 陈涛. 基于深度学习的评论文本情感分析[J]. 信息技术与信息化, 2024(7): 38-42. |
[7] | 陈可嘉, 夏瑞东, 林鸿熙. 融合双重表情符号注意力机制的文本情感分类[J]. 北京航空航天大学学报, 2024: 1-15. |
[8] | 臧洁, 鲁锦涛, 王妍, 等. 融合双通道特征的中文短文本情感分类模型[J]. 计算机工程与应用, 2024, 60(21): 116-126. |
[9] | 鲁富宇, 冷泳林, 崔洪霞. 融合TextCNN-BiGRU的多因子权重文本情感分类算法研究[J]. 电子设计工程, 2024, 32(10): 44-48+53. |
[10] | 王海涛, 何鑫, 施屹然, 等. 基于结构性符号文本的多通道情感分类模型构建[J]. 智能计算机与应用, 2024, 14(10): 164-169. |
[11] | 李琳, 韩虎, 范雅婷. 基于旅游领域的细粒度情感词典构建方法[J]. 北京航空航天大学学报, 2024: 1-12. |
[12] | 卫青蓝, 何雨, 宋金宝. 基于语义规则的自适应情感词典自动构建算法[J]. 北京航空航天大学学报, 2024: 1-11. |
[13] | 王浩畅, 王宇坤, Marius Gabriel Petrescu. 融合情感词典与深度学习的文本情感分析研究[J]. 计算机与数字工程, 2024, 52(2): 451-455. |
[14] | 胡梦雅, 樊重俊, 朱玥. 基于机器学习的微博评论情感分析[J]. 信息与电脑(理论版), 2020, 32(12): 71-73. |
[15] | 张财, 马自强, 闫博. 基于机器学习的政务微博情感分析模型设计[J]. 计算机工程, 2024, 50(12): 386-395. |
[16] | Mikolov, T., Chen, K., Corrado, G., et al. (2013) Efficient Estimation of Word Representations in Vector Space. |
[17] | Kim, Y. (2014) Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, October 2014, 1746-1751. https://doi.org/10.3115/v1/d14-1181 |
[18] | Orhan, A.E. and Pitkow, X. (2017) Skip Connections Eliminate Singularities. |
[19] | Srivastava, R.K., Greff, K. and Schmidhuber, J. (2015) Highway Networks. |
[20] | He, K., Zhang, X., Ren, S. and Sun, J. (2016) Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 770-778. https://doi.org/10.1109/cvpr.2016.90 |
[21] | Shazeer, N.M. (2020) GLU Variants Improve Transformer. |