|
复杂数据上的实体识别综述
|
Abstract:
[1] | Elmagarmid, A.K., Ipeirotis, P.G. and Verykios, V.S. (2007) Duplicate Record Detection: A Survey. IEEE Transactions on Knowledge & Data Engineering, 19, 1-16. https://doi.org/10.1109/TKDE.2007.250581 |
[2] | 梁吉业, 冯晨娇, 宋鹏. 大数据相关分析综述[J]. 计算机学报, 2016(1): 1-18. |
[3] | 王丁. 关于自然语言处理技术的分析与研究[J]. 科技创新导报, 2020, 17(7): 141-142. |
[4] | 林莉. 人工智能时代背景下自然语言处理技术的发展[J]. 电子世界, 2020(22): 24-25. |
[5] | 黄睿, 李辰, 王涛, 等. 语言序列标注方法, 装置存储介质及计算机设备[P]. 中国专利, CN201811481219.2. 2020-06-12. |
[6] | 阳萍, 谢志鹏. 基于BiLSTM模型的定义抽取方法[J]. 计算机工程, 2020(3): 40-45. |
[7] | 黄胜, 王博博, 朱菁. 基于文档结构与深度学习的金融公告信息抽取[J]. 计算机工程与设计, 2020, 41(1): 115-121. |
[8] | 王宗极. 基于深度学习的复杂场景车牌识别研究[D]: [硕士学位论文]. 北京: 中国地质大学(北京), 2020. |
[9] | 孔玲玲. 面向少量标注数据的中文命名实体识别技术研究[D]: [硕士学位论文]. 杭州: 浙江大学, 2019. |
[10] | 纪文璐, 王海龙, 苏贵斌, 柳林. 基于关联规则算法的推荐方法研究综述[J]. 计算机工程与应用, 2020, 56(22): 39-47. |
[11] | 谢德鹏, 常青. 关系抽取综述[J]. 计算机应用研究, 2020, 37(7): 1921-1924, 1930. |
[12] | 黄超. 基于统计方法从文本中抽取分词词典[J]. 电脑知识与技术, 2020, 16(4): 213-214. |
[13] | 陈娟, 王卓薇, 程良伦. 基于深度学习的命名实体识别算法[J]. 计算机科学与应用, 2021, 11(3): 628-634.
https://doi.org/10.12677/CSA.2021.113064 |
[14] | 仇增辉, 赫明杰, 林正奎. 基于深度学习的网购评论命名实体识别方法[J]. 计算机工程与科学, 2020, 42(12): 189-196. |
[15] | 高亮亮. 基于深度神经网络的中文医疗文本实体识别[D]: [硕士学位论文]. 成都: 电子科技大学, 2020. |
[16] | 陈茹, 卢先领. 融合空洞卷积神经网络与层次注意力机制的中文命名实体识别[J]. 中文信息学报, 2020, 34(8): 70-77. |
[17] | 唐国强, 高大启, 阮彤, 等. 融入语言模型和注意力机制的临床电子病历命名实体识别[J]. 计算机科学, 2020, 47(3): 211-216. |
[18] | 徐凯, 王崎, 李振彰, 等. 基于结合多头注意力机制BiGRU网络的生物医学命名实体识别[J]. 计算机应用与软件, 2020, 37(5): 151-155+232. |
[19] | 马千程, 王崑声, 周晓纪. 基于深度学习的竞争情报命名实体识别研究[J]. 情报探索, 2020(9): 1-7. |
[20] | 丁晟春, 方振, 王楠. 基于Bi-LSTM-CRF的商业领域命名实体识别[J]. 现代情报, 2020, 40(3): 103-110. |
[21] | 刘小安, 彭涛. 基于卷积神经网络的中文景点识别研究[J]. 计算机工程与应用, 2020, 56(4): 140-145. |
[22] | 周国民, 宣鑫乐, 沈佳琪, 等. 基于实体关联的消歧算法研究[J]. 中国电子科学研究院学报, 2020, 15(3): 271-277. |
[23] | Ahmed, A.M., Patel, A. and Khan, M. (2021) Super-MAC: Data Duplication and Combining for Reliability Enhancements in Next-Generation Networks. IEEE Access, 9, 54671-54689. https://doi.org/10.1109/ACCESS.2021.3070993 |
[24] | Che, S., Yang, W. and Wang, W. (2020) Improved Stream-ing Quotient Filter: A Duplicate Detection Approach for Data Streams. The International Arab Journal of Information Technology, 17, 769-777.
https://doi.org/10.34028/iajit/17/5/10 |
[25] | 王宏志, 樊文飞. 复杂数据上的实体识别技术研究[J]. 计算机学报, 2011, 34(10): 1843-1852. |
[26] | 徐啸, 朱艳辉, 冀相冰. 基于自注意力深度学习的微博实体识别研究[J]. 湖南工业大学学报, 2019, 33(2): 48-52. |
[27] | 王超, 王峥. 基于改进分词标注集的中文微博命名实体识别方法[J]. 计算机与数字工程, 2019, 47(1): 211-215. |
[28] | 刘卫平, 张豹, 陈伟荣, 等. 基于迁移表示学习的军事命名实体识别[J]. 指挥信息系统与技术, 2020, 11(2): 64-69. |
[29] | 刘程波. 基于实体识别和情感分析的商品评论主体观点挖掘[D]: [硕士学位论文]. 上海: 东华大学, 2020. |
[30] | Grishman, R. and Sundheim, B. (1996) Message Understanding Conference 6: A Brief History. Proceedings of the 16th Conference on Computational Linguistics, 1, 466-471. https://doi.org/10.3115/992628.992709 |
[31] | United States Defense Advanced Research Projects Agency (DARPA), Information Technology Office (1995) Named Entity Task Definition, Version 2.1. Message Understanding Conference-6 (MUC-6), Morgan Kaufmann, Columbia, Maryland, November 1995, 319 -332. |
[32] | 莎仁, 梁琼芳, 李长明, 张家鑫. 大数据实体识别相关技术研究[J]. 软件导刊, 2020, 19(3): 125-127. |
[33] | Ratnaparkhi, A. (1996) A Maximum Entropy Model for Part-of-Speech Tagging. Proceedings of the Empirical Method for Natural Language Processing, Stroudsburg, 1996, 133-142. |
[34] | McCallum, A., Freitag, D. and Pereira, F.C.N. (2000) Maximum Entro-py Markov Models for Information Extraction and Segmentation. Proceedings of the Seventeenth International Confer-ence on Machine Learning, Stanford, CA, June 2000, 591-598. |
[35] | Lafferty, J. (2001) Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Proceedings of the 18th International Conference on Machine Learning, Williams College, Williamstown, MA, 28 June-1 July 2001, 282-289. |
[36] | 陈曙东, 欧阳小叶. 命名实体识别技术综述[J]. 无线电通信技术, 2020, 46(3): 251-260. |
[37] | 徐冰冰, 岑科廷, 黄俊杰, 等. 图卷积神经网络综述[J]. 计算机学报, 2020, 43(5): 755-780. |
[38] | 谢博, 申国伟, 郭春, 等. 基于残差空洞卷积神经网络的网络安全实体识别方法[J]. 网络与信息安全学报, 2020, 6(5): 126-138. |
[39] | 王栋, 李业刚, 张晓, 等. 基于准循环神经网络的中文命名实体识别[J]. 计算机工程与设计, 2020, 41(7): 2038-2043. |
[40] | 陈基. 命名实体识别综述[J]. 现代计算机, 2016(2): 24-26. |
[41] | 黄炜, 童青云, 李岳峰. 基于广度学习的异构社交网络敏感实体识别模型研究[J]. 情报学报, 2020, 39(6): 579-588. |
[42] | Webb, S., Caverlee, J. and Pu, C. (2008) Social Honeypots: Making Friends with a Spammer near You. The Fifth Conference on Email and Anti-Spam, Mountain View, CA, 21-22 August 2008. |
[43] | Cao, Q., Sirivianos, M., Yang, X., et al. (2012) Aiding the Detection of Fake Accounts in Large Scale Social Online Services. USENIX Conference on Networked Systems Design & Implementation, San Jose, CA, 25-27 April 2012, 1-14. |
[44] | Liang, Z., Feng, C., Jing, D., et al. (2014) Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling. PLoS ONE, 9, e110206. https://doi.org/10.1371/journal.pone.0110206 |
[45] | Ding, W., Yue, Z., Chen, C., et al. (2017) Semi-Supervised Di-richlet-Hawkes Process with Applications of Topic Detection and Tracking in Twitter. 2016 IEEE International Confer-ence on Big Data (Big Data). Washington DC, 5-8 December 2016, 869-874. https://doi.org/10.1109/BigData.2016.7840680 |
[46] | 张政馗, 庞为光, 谢文静, 吕鸣松, 王义. 面向实时应用的深度学习研究综述[J]. 软件学报, 2020, 31(9): 2654-2677. |
[47] | 魏笑, 秦永彬, 陈艳平. 一种基于部件CNN的网络安全命名实体识别方法[J]. 计算机与数字工程, 2020, 48(1): 106-111. |
[48] | Chen, T., Xu, R., He, Y., et al. (2016) Improving Sentiment Analysis via Sentence Type Classification Using BiLSTM-CRF and CNN. Expert Systems with Applications, 72, 221-230. https://doi.org/10.1016/j.eswa.2016.10.065 |
[49] | Tai, K.S., Socher, R. and Manning, C.D. (2015) Improved Semantic Representations from Tree-Structured Long Short-Term Memory Networks. Proceed-ings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Con-ference on Natural Language Processing, Beijing, 26-31 July 2015, 1556-1566. https://doi.org/10.3115/v1/P15-1150 |
[50] | 饶竹一, 张云翔. 基于BiGRU和注意力机制的多标签文本分类模型[J]. 现代计算机, 2020(1): 31-35. |
[51] | 张建权. 基于CNN和BiGRU-attention的互联网敏感实体识别方法[J]. 网络安全技术与应用, 2020(4): 61-65. |
[52] | 徐树奎, 曹劲然. 基于层级式Bi-LSTM-CRF模型的军事目标实体识别方法[J]. 信息化研究, 2019, 45(6): 18-22, 46. |
[53] | 王传栋, 徐娇, 张永. 实体关系抽取综述[J]. 计算机工程与应用, 2020, 56(12): 25-36. |
[54] | 姜文志, 顾佼佼, 丛林虎. CRF与规则相结合的军事命名实体识别研究[J]. 指挥控制与仿真, 2011, 33(4): 13-15. |
[55] | 齐玉东, 丁海强, 吴晋豫, 等. 融合本体特征的BiLSTM-CRF军事实体识别模型[J]. 兵器装备工程学报, 2020, 41(5): 118-123. |
[56] | 李健龙, 王盼卿, 韩琪羽. 基于双向LSTM的军事命名实体识别[J]. 计算机工程与科学, 2019, 41(4): 713-718. |
[57] | 高学攀, 杜楚, 吴金亮. 基于BiLSTM-CRF的军事命名实体识别方法[J]. 无线电工程, 2020, 50(12): 1050-1054. |
[58] | 刘明明, 李震霄, 郑丽丽. 基于双向循环神经网络的字符级文本分类[J]. 江苏建筑职业技术学院学报, 2019, 19(4): 29-34. |
[59] | 齐玉东, 丁海强, 赵锦超, 等. 基于biRNN的海军军械不均衡文本数据集处理方法[J]. 计算机与现代化, 2019(12): 21-26. |
[60] | Xu, B., Yan, S. and Yang, D. (2019) BiRNN-DKT: Transfer Bi-Directional LSTM RNN for Knowledge Tracing. In: Ni, W., Wang, X., Song, W. and Li, Y., Eds., Web Information Systems and Applications. WISA 2019. Lecture Notes in Computer Science, Vol. 11817, Springer, Cham, 22-27.
https://doi.org/10.1007/978-3-030-30952-7_3 |
[61] | 李培英, 杨鉴. 基于BERT-CRF模型的缅甸语韵律单元边界预测[J]. 计算机科学与应用, 2021, 11(3): 505-514.
https://doi.org/10.12677/CSA.2021.113051 |
[62] | 付瑶, 万静, 邢立栋. 基于条件随机场与信息熵的特定领域概念发现[J]. 计算机应用研究, 2020, 37(3): 708-711, 730. |
[63] | 王莉, 陈兆熙, 余丽. 基于条件随机场的多标签图像分类识别方法[J]. 计算机仿真, 2020, 37(8): 394-397. |
[64] | 黄定琦, 史晟辉. 基于条件随机场的汉语词汇特征研究[J]. 计算机应用研究, 2020, 37(6): 1724-1728, 1754. |
[65] | 方莹. 基于条件随机场的英文农产品名识别[J]. 河南科学, 2011, 29(3): 350-353. |
[66] | 石磊, 王毅, 成颖, 等. 自然语言处理中的注意力机制研究综述[J]. 数据分析与知识发现, 2020, 4(5): 1-14. |
[67] | 单义栋, 王衡军, 黄河, 等. 基于注意力机制的命名实体识别模型研究——以军事文本为例[J]. 计算机科学, 2019, 46(z1): 111-114, 119. |
[68] | 贾全烨, 张强, 宋博川. 一种基于循环神经网络的电网客服语音文本实体识别算法[J]. 供用电, 2020, 37(6): 13-20. https://doi.org/10.19421/j.cnki.1006-6357.2020.06.003 |
[69] | 黄晓, 林嘉良, 滕蔚, 等. 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法[P]. 中国专利, CN201911143069.9. 2020-03-17. |
[70] | 张应成, 杨洋, 蒋瑞, 等. 基于BiLSTM-CRF的商情实体识别模型[J]. 计算机工程, 2019, 45(5): 308-314. |
[71] | 李一斌. 基于双向GRU-CRF的中文包装产品实体识别[J]. 华东理工大学学报(自然科学版), 2019, 45(3): 486-490. |
[72] | 王海宁, 周菊香, 徐天伟. 融合深度学习与规则的民族工艺品领域命名实体识别[J]. 云南师范大学学报(自然科学版), 2020, 40(2): 48-54. |
[73] | 沈达阳, 孙茂松. 中国地名的自动辨识[C]//全国第三届计算语言学联合学术会议论文集. 北京: 清华大学出版社, 1995: 68-74. |
[74] | 郑家恒, 李鑫, 谭红叶. 基于语料库的中文姓名识别方法研究[J]. 中文信息学报, 2000, 14(1): 7-12. |
[75] | 张小衡, 王玲玲. 中文机构名称的识别与分析[J]. 中文信息学报, 1997, 11(4): 22-33. |
[76] | 王红斌, 李金绘, 沈强, 等. 基于最大熵的泰语句子级实体从属关系抽取[J]. 南京大学学报(自然科学), 2017, 53(4): 738-746. |
[77] | 张玥杰, 徐智婷, 薛向阳. 融合多特征的最大熵汉语命名实体识别模型[J]. 计算机研究与发展, 2008, 45(6): 1004-1010. |
[78] | 高冰涛, 张阳, 刘斌. BioTrHMM: 基于迁移学习的生物医学命名实体识别算法[J]. 计算机应用研究, 2019, 36(1): 45-48. |
[79] | 何炎祥, 罗楚威, 胡彬尧. 基于CRF和规则相结合的地理命名实体识别方法[J]. 计算机应用与软件, 2015, 32(1): 179-185, 202. |
[80] | 李博, 康晓东, 张华丽, 等. 采用Transformer-CRF的中文电子病历命名实体识别[J]. 计算机工程与应用, 2020, 56(5): 153-159. |
[81] | 朱祥. 基于隐马尔可夫模型和聚类的英语语音识别混合算法[J]. 计算机测量与控制, 2020, 28(5): 175-179. |
[82] | 王浩畅, 赵铁军. 基于SVM的生物医学命名实体的识别[J]. 哈尔滨工程大学学报, 2006, 27(z1): 570-574. |
[83] | 孙琛琛, 申德荣, 寇月, 等. 面向实体识别的聚类算法[J]. 软件学报, 2016, 27(9): 2303-2319. |
[84] | 张娜娜, 王裴岩, 张桂平. 面向工艺操作说明文本的命名实体深度学习识别方法[J]. 计算机应用与软件, 2019, 36(11): 188-195, 261. |
[85] | 张帆, 王敏. 基于深度学习的医疗命名实体识别[J]. 计算技术与自动化, 2017, 36(1): 123-127. |
[86] | Ma, C. and Zhang, C. (2021) Joint Pre-Trained Chinese Named Entity Recognition Based on Bi-Directional Language Model. Inter-national Journal of Pattern Recognition and Artificial Intelligence.
https://www.worldscientific.com/doi/10.1142/S0218001421530037 |
[87] | Yang, J., Wang, H., Tang, Y., et al. (2021) Incorporating Lexicon and Character Glyph and Morphological Features into BiLSTM-CRF for Chinese Medical NER. 2021 IEEE International Conference on Consumer Electronics and Computer Engineering (ICCECE), Guangzhou, 15-17 January 2021, 12-17.
https://doi.org/10.1109/ICCECE51280.2021.9342121 |