全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

复杂数据上的实体识别综述
A Survey of Entity Recognition on Complex Data

DOI: 10.12677/CSA.2021.115164, PP. 1588-1597

Keywords: 复杂数据,实体识别,敏感实体,目标实体,商情实体
Complex Data
, Entity Recognition, Sensitive Entities, Target Entity, Business Entity

Full-Text   Cite this paper   Add to My Lib

Abstract:

复杂数据的数据量大和数据源不同的特征导致在挖掘复杂数据中的潜在价值时,需要利用实体识别技术。实体识别技术能实现对传统数据进行完整刻画、对数据质量进行管理的重要操作。而在复杂数据进行实体识别具有识别效果差、识别精度不高等问题。本文首先从应用领域的角度探讨复杂数据上的实体识别技术,包括社交网络领域的敏感实体识别、军事领域的目标实体识别、商业领域的商情实体识别。其次,对不同领域中的各个实体识别常用方法进行对比,分析了各个方法的问题与不足。最后,对在不同领域中进行实体识别的难点进行总结。
Complex data is characterized by a large amount of data and different data sources, which lead to the use of entity recognition technology in mining the potential value of complex data. Entity recognition technology can realize some important operations, such as complete description of traditional data and data quality management. However, entity recognition technology applied in complex data has the problems of poor recognition effect and low recognition accuracy. This paper first discusses entity recognition technology on complex data from the perspective of application field, including sensitive entity recognition in social network field, target entity recognition in military field and business entity recognition in commercial field. Secondly, the usual methods of entity recognition in different fields are compared, and the problems and shortcomings of each method are analyzed. Finally, the difficulties of entity recognition in different fields are summarized.

References

[1]  Elmagarmid, A.K., Ipeirotis, P.G. and Verykios, V.S. (2007) Duplicate Record Detection: A Survey. IEEE Transactions on Knowledge & Data Engineering, 19, 1-16.
https://doi.org/10.1109/TKDE.2007.250581
[2]  梁吉业, 冯晨娇, 宋鹏. 大数据相关分析综述[J]. 计算机学报, 2016(1): 1-18.
[3]  王丁. 关于自然语言处理技术的分析与研究[J]. 科技创新导报, 2020, 17(7): 141-142.
[4]  林莉. 人工智能时代背景下自然语言处理技术的发展[J]. 电子世界, 2020(22): 24-25.
[5]  黄睿, 李辰, 王涛, 等. 语言序列标注方法, 装置存储介质及计算机设备[P]. 中国专利, CN201811481219.2. 2020-06-12.
[6]  阳萍, 谢志鹏. 基于BiLSTM模型的定义抽取方法[J]. 计算机工程, 2020(3): 40-45.
[7]  黄胜, 王博博, 朱菁. 基于文档结构与深度学习的金融公告信息抽取[J]. 计算机工程与设计, 2020, 41(1): 115-121.
[8]  王宗极. 基于深度学习的复杂场景车牌识别研究[D]: [硕士学位论文]. 北京: 中国地质大学(北京), 2020.
[9]  孔玲玲. 面向少量标注数据的中文命名实体识别技术研究[D]: [硕士学位论文]. 杭州: 浙江大学, 2019.
[10]  纪文璐, 王海龙, 苏贵斌, 柳林. 基于关联规则算法的推荐方法研究综述[J]. 计算机工程与应用, 2020, 56(22): 39-47.
[11]  谢德鹏, 常青. 关系抽取综述[J]. 计算机应用研究, 2020, 37(7): 1921-1924, 1930.
[12]  黄超. 基于统计方法从文本中抽取分词词典[J]. 电脑知识与技术, 2020, 16(4): 213-214.
[13]  陈娟, 王卓薇, 程良伦. 基于深度学习的命名实体识别算法[J]. 计算机科学与应用, 2021, 11(3): 628-634.
https://doi.org/10.12677/CSA.2021.113064
[14]  仇增辉, 赫明杰, 林正奎. 基于深度学习的网购评论命名实体识别方法[J]. 计算机工程与科学, 2020, 42(12): 189-196.
[15]  高亮亮. 基于深度神经网络的中文医疗文本实体识别[D]: [硕士学位论文]. 成都: 电子科技大学, 2020.
[16]  陈茹, 卢先领. 融合空洞卷积神经网络与层次注意力机制的中文命名实体识别[J]. 中文信息学报, 2020, 34(8): 70-77.
[17]  唐国强, 高大启, 阮彤, 等. 融入语言模型和注意力机制的临床电子病历命名实体识别[J]. 计算机科学, 2020, 47(3): 211-216.
[18]  徐凯, 王崎, 李振彰, 等. 基于结合多头注意力机制BiGRU网络的生物医学命名实体识别[J]. 计算机应用与软件, 2020, 37(5): 151-155+232.
[19]  马千程, 王崑声, 周晓纪. 基于深度学习的竞争情报命名实体识别研究[J]. 情报探索, 2020(9): 1-7.
[20]  丁晟春, 方振, 王楠. 基于Bi-LSTM-CRF的商业领域命名实体识别[J]. 现代情报, 2020, 40(3): 103-110.
[21]  刘小安, 彭涛. 基于卷积神经网络的中文景点识别研究[J]. 计算机工程与应用, 2020, 56(4): 140-145.
[22]  周国民, 宣鑫乐, 沈佳琪, 等. 基于实体关联的消歧算法研究[J]. 中国电子科学研究院学报, 2020, 15(3): 271-277.
[23]  Ahmed, A.M., Patel, A. and Khan, M. (2021) Super-MAC: Data Duplication and Combining for Reliability Enhancements in Next-Generation Networks. IEEE Access, 9, 54671-54689.
https://doi.org/10.1109/ACCESS.2021.3070993
[24]  Che, S., Yang, W. and Wang, W. (2020) Improved Stream-ing Quotient Filter: A Duplicate Detection Approach for Data Streams. The International Arab Journal of Information Technology, 17, 769-777.
https://doi.org/10.34028/iajit/17/5/10
[25]  王宏志, 樊文飞. 复杂数据上的实体识别技术研究[J]. 计算机学报, 2011, 34(10): 1843-1852.
[26]  徐啸, 朱艳辉, 冀相冰. 基于自注意力深度学习的微博实体识别研究[J]. 湖南工业大学学报, 2019, 33(2): 48-52.
[27]  王超, 王峥. 基于改进分词标注集的中文微博命名实体识别方法[J]. 计算机与数字工程, 2019, 47(1): 211-215.
[28]  刘卫平, 张豹, 陈伟荣, 等. 基于迁移表示学习的军事命名实体识别[J]. 指挥信息系统与技术, 2020, 11(2): 64-69.
[29]  刘程波. 基于实体识别和情感分析的商品评论主体观点挖掘[D]: [硕士学位论文]. 上海: 东华大学, 2020.
[30]  Grishman, R. and Sundheim, B. (1996) Message Understanding Conference 6: A Brief History. Proceedings of the 16th Conference on Computational Linguistics, 1, 466-471.
https://doi.org/10.3115/992628.992709
[31]  United States Defense Advanced Research Projects Agency (DARPA), Information Technology Office (1995) Named Entity Task Definition, Version 2.1. Message Understanding Conference-6 (MUC-6), Morgan Kaufmann, Columbia, Maryland, November 1995, 319 -332.
[32]  莎仁, 梁琼芳, 李长明, 张家鑫. 大数据实体识别相关技术研究[J]. 软件导刊, 2020, 19(3): 125-127.
[33]  Ratnaparkhi, A. (1996) A Maximum Entropy Model for Part-of-Speech Tagging. Proceedings of the Empirical Method for Natural Language Processing, Stroudsburg, 1996, 133-142.
[34]  McCallum, A., Freitag, D. and Pereira, F.C.N. (2000) Maximum Entro-py Markov Models for Information Extraction and Segmentation. Proceedings of the Seventeenth International Confer-ence on Machine Learning, Stanford, CA, June 2000, 591-598.
[35]  Lafferty, J. (2001) Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Proceedings of the 18th International Conference on Machine Learning, Williams College, Williamstown, MA, 28 June-1 July 2001, 282-289.
[36]  陈曙东, 欧阳小叶. 命名实体识别技术综述[J]. 无线电通信技术, 2020, 46(3): 251-260.
[37]  徐冰冰, 岑科廷, 黄俊杰, 等. 图卷积神经网络综述[J]. 计算机学报, 2020, 43(5): 755-780.
[38]  谢博, 申国伟, 郭春, 等. 基于残差空洞卷积神经网络的网络安全实体识别方法[J]. 网络与信息安全学报, 2020, 6(5): 126-138.
[39]  王栋, 李业刚, 张晓, 等. 基于准循环神经网络的中文命名实体识别[J]. 计算机工程与设计, 2020, 41(7): 2038-2043.
[40]  陈基. 命名实体识别综述[J]. 现代计算机, 2016(2): 24-26.
[41]  黄炜, 童青云, 李岳峰. 基于广度学习的异构社交网络敏感实体识别模型研究[J]. 情报学报, 2020, 39(6): 579-588.
[42]  Webb, S., Caverlee, J. and Pu, C. (2008) Social Honeypots: Making Friends with a Spammer near You. The Fifth Conference on Email and Anti-Spam, Mountain View, CA, 21-22 August 2008.
[43]  Cao, Q., Sirivianos, M., Yang, X., et al. (2012) Aiding the Detection of Fake Accounts in Large Scale Social Online Services. USENIX Conference on Networked Systems Design & Implementation, San Jose, CA, 25-27 April 2012, 1-14.
[44]  Liang, Z., Feng, C., Jing, D., et al. (2014) Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling. PLoS ONE, 9, e110206.
https://doi.org/10.1371/journal.pone.0110206
[45]  Ding, W., Yue, Z., Chen, C., et al. (2017) Semi-Supervised Di-richlet-Hawkes Process with Applications of Topic Detection and Tracking in Twitter. 2016 IEEE International Confer-ence on Big Data (Big Data). Washington DC, 5-8 December 2016, 869-874.
https://doi.org/10.1109/BigData.2016.7840680
[46]  张政馗, 庞为光, 谢文静, 吕鸣松, 王义. 面向实时应用的深度学习研究综述[J]. 软件学报, 2020, 31(9): 2654-2677.
[47]  魏笑, 秦永彬, 陈艳平. 一种基于部件CNN的网络安全命名实体识别方法[J]. 计算机与数字工程, 2020, 48(1): 106-111.
[48]  Chen, T., Xu, R., He, Y., et al. (2016) Improving Sentiment Analysis via Sentence Type Classification Using BiLSTM-CRF and CNN. Expert Systems with Applications, 72, 221-230.
https://doi.org/10.1016/j.eswa.2016.10.065
[49]  Tai, K.S., Socher, R. and Manning, C.D. (2015) Improved Semantic Representations from Tree-Structured Long Short-Term Memory Networks. Proceed-ings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Con-ference on Natural Language Processing, Beijing, 26-31 July 2015, 1556-1566.
https://doi.org/10.3115/v1/P15-1150
[50]  饶竹一, 张云翔. 基于BiGRU和注意力机制的多标签文本分类模型[J]. 现代计算机, 2020(1): 31-35.
[51]  张建权. 基于CNN和BiGRU-attention的互联网敏感实体识别方法[J]. 网络安全技术与应用, 2020(4): 61-65.
[52]  徐树奎, 曹劲然. 基于层级式Bi-LSTM-CRF模型的军事目标实体识别方法[J]. 信息化研究, 2019, 45(6): 18-22, 46.
[53]  王传栋, 徐娇, 张永. 实体关系抽取综述[J]. 计算机工程与应用, 2020, 56(12): 25-36.
[54]  姜文志, 顾佼佼, 丛林虎. CRF与规则相结合的军事命名实体识别研究[J]. 指挥控制与仿真, 2011, 33(4): 13-15.
[55]  齐玉东, 丁海强, 吴晋豫, 等. 融合本体特征的BiLSTM-CRF军事实体识别模型[J]. 兵器装备工程学报, 2020, 41(5): 118-123.
[56]  李健龙, 王盼卿, 韩琪羽. 基于双向LSTM的军事命名实体识别[J]. 计算机工程与科学, 2019, 41(4): 713-718.
[57]  高学攀, 杜楚, 吴金亮. 基于BiLSTM-CRF的军事命名实体识别方法[J]. 无线电工程, 2020, 50(12): 1050-1054.
[58]  刘明明, 李震霄, 郑丽丽. 基于双向循环神经网络的字符级文本分类[J]. 江苏建筑职业技术学院学报, 2019, 19(4): 29-34.
[59]  齐玉东, 丁海强, 赵锦超, 等. 基于biRNN的海军军械不均衡文本数据集处理方法[J]. 计算机与现代化, 2019(12): 21-26.
[60]  Xu, B., Yan, S. and Yang, D. (2019) BiRNN-DKT: Transfer Bi-Directional LSTM RNN for Knowledge Tracing. In: Ni, W., Wang, X., Song, W. and Li, Y., Eds., Web Information Systems and Applications. WISA 2019. Lecture Notes in Computer Science, Vol. 11817, Springer, Cham, 22-27.
https://doi.org/10.1007/978-3-030-30952-7_3
[61]  李培英, 杨鉴. 基于BERT-CRF模型的缅甸语韵律单元边界预测[J]. 计算机科学与应用, 2021, 11(3): 505-514.
https://doi.org/10.12677/CSA.2021.113051
[62]  付瑶, 万静, 邢立栋. 基于条件随机场与信息熵的特定领域概念发现[J]. 计算机应用研究, 2020, 37(3): 708-711, 730.
[63]  王莉, 陈兆熙, 余丽. 基于条件随机场的多标签图像分类识别方法[J]. 计算机仿真, 2020, 37(8): 394-397.
[64]  黄定琦, 史晟辉. 基于条件随机场的汉语词汇特征研究[J]. 计算机应用研究, 2020, 37(6): 1724-1728, 1754.
[65]  方莹. 基于条件随机场的英文农产品名识别[J]. 河南科学, 2011, 29(3): 350-353.
[66]  石磊, 王毅, 成颖, 等. 自然语言处理中的注意力机制研究综述[J]. 数据分析与知识发现, 2020, 4(5): 1-14.
[67]  单义栋, 王衡军, 黄河, 等. 基于注意力机制的命名实体识别模型研究——以军事文本为例[J]. 计算机科学, 2019, 46(z1): 111-114, 119.
[68]  贾全烨, 张强, 宋博川. 一种基于循环神经网络的电网客服语音文本实体识别算法[J]. 供用电, 2020, 37(6): 13-20.
https://doi.org/10.19421/j.cnki.1006-6357.2020.06.003
[69]  黄晓, 林嘉良, 滕蔚, 等. 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法[P]. 中国专利, CN201911143069.9. 2020-03-17.
[70]  张应成, 杨洋, 蒋瑞, 等. 基于BiLSTM-CRF的商情实体识别模型[J]. 计算机工程, 2019, 45(5): 308-314.
[71]  李一斌. 基于双向GRU-CRF的中文包装产品实体识别[J]. 华东理工大学学报(自然科学版), 2019, 45(3): 486-490.
[72]  王海宁, 周菊香, 徐天伟. 融合深度学习与规则的民族工艺品领域命名实体识别[J]. 云南师范大学学报(自然科学版), 2020, 40(2): 48-54.
[73]  沈达阳, 孙茂松. 中国地名的自动辨识[C]//全国第三届计算语言学联合学术会议论文集. 北京: 清华大学出版社, 1995: 68-74.
[74]  郑家恒, 李鑫, 谭红叶. 基于语料库的中文姓名识别方法研究[J]. 中文信息学报, 2000, 14(1): 7-12.
[75]  张小衡, 王玲玲. 中文机构名称的识别与分析[J]. 中文信息学报, 1997, 11(4): 22-33.
[76]  王红斌, 李金绘, 沈强, 等. 基于最大熵的泰语句子级实体从属关系抽取[J]. 南京大学学报(自然科学), 2017, 53(4): 738-746.
[77]  张玥杰, 徐智婷, 薛向阳. 融合多特征的最大熵汉语命名实体识别模型[J]. 计算机研究与发展, 2008, 45(6): 1004-1010.
[78]  高冰涛, 张阳, 刘斌. BioTrHMM: 基于迁移学习的生物医学命名实体识别算法[J]. 计算机应用研究, 2019, 36(1): 45-48.
[79]  何炎祥, 罗楚威, 胡彬尧. 基于CRF和规则相结合的地理命名实体识别方法[J]. 计算机应用与软件, 2015, 32(1): 179-185, 202.
[80]  李博, 康晓东, 张华丽, 等. 采用Transformer-CRF的中文电子病历命名实体识别[J]. 计算机工程与应用, 2020, 56(5): 153-159.
[81]  朱祥. 基于隐马尔可夫模型和聚类的英语语音识别混合算法[J]. 计算机测量与控制, 2020, 28(5): 175-179.
[82]  王浩畅, 赵铁军. 基于SVM的生物医学命名实体的识别[J]. 哈尔滨工程大学学报, 2006, 27(z1): 570-574.
[83]  孙琛琛, 申德荣, 寇月, 等. 面向实体识别的聚类算法[J]. 软件学报, 2016, 27(9): 2303-2319.
[84]  张娜娜, 王裴岩, 张桂平. 面向工艺操作说明文本的命名实体深度学习识别方法[J]. 计算机应用与软件, 2019, 36(11): 188-195, 261.
[85]  张帆, 王敏. 基于深度学习的医疗命名实体识别[J]. 计算技术与自动化, 2017, 36(1): 123-127.
[86]  Ma, C. and Zhang, C. (2021) Joint Pre-Trained Chinese Named Entity Recognition Based on Bi-Directional Language Model. Inter-national Journal of Pattern Recognition and Artificial Intelligence.
https://www.worldscientific.com/doi/10.1142/S0218001421530037
[87]  Yang, J., Wang, H., Tang, Y., et al. (2021) Incorporating Lexicon and Character Glyph and Morphological Features into BiLSTM-CRF for Chinese Medical NER. 2021 IEEE International Conference on Consumer Electronics and Computer Engineering (ICCECE), Guangzhou, 15-17 January 2021, 12-17.
https://doi.org/10.1109/ICCECE51280.2021.9342121

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133