全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

互联网文本蕴含道路交通信息抽取的模式匹配方法

DOI: 10.3724/SP.J.1047.2015.00416, PP. 416-422

Keywords: 道路交通信息,模式匹配,DTW距离,互联网文本,信息抽取

Full-Text   Cite this paper   Add to My Lib

Abstract:

互联网页面和社交网络文本中蕴含丰富的道路交通信息,是其他交通信息采集平台的有效补充。然而,自然语言文本形式的交通信息多以线性参考或地标方位描述交通事件空间位置,且大量存在事件元素缺失或隐含现象,对交通信息的自动化抽取有着较大影响。考虑到交通信息的自然语言表达方式虽然自由随意,但表达模式相对固定,提出一种从互联网文本中抽取道路交通信息的模式匹配方法。首先,基于道路交通事件描述的语言特征构建模式库;然后,以特征词词性序列的形式表达互联网文本和抽取模式,利用DTW距离度量序列相似度,实现抽取模式匹配;最后,在匹配抽取模式和填补规则指导下获取结构化的道路交通信息。由上海市城市交通相关门户网站和微博客平台的实验过程显示,本文所提出的模式匹配方法,抽取道路交通信息的准确率和召回率分别达到90%和80%以上,表明该方法能有效抽取互联网文本蕴含的道路交通信息,且实现过程相对简单,易于扩展,具有可用性。

References

[1]  陆锋, 郑年波, 段滢滢, 等. 出行信息服务关键技术研究进展与问题探讨[J]. 中国图象图形学报, 2009, 14(7): 1219-1229.
[2]  Grishman R. Information extraction: Techniques and challenges[C]. In Information Extraction (International SummerSchool SCIE-97), 1997: 10-27.
[3]  Uzuner ?, Solti I, Cadag E. Extracting medication information from clinical text[J]. Journal of the American Medical Informatics Association, 2010, 17(5): 514-518.
[4]  Jensen L J, Saric J, Bork P. Literature mining for the biologist: from information retrieval to biological discovery[J]. Nature reviews genetics, 2006, 7(2): 119-129.
[5]  He W, Zha S, Li L. Social media competitive analysis and text mining: A case study in the pizza industry[J]. International Journal of Information Management, 2013, 33(3): 464-472.
[6]  Verma S, Vieweg S, Corvey W J, et al. Natural language processing to the rescue? Extracting "Situational Awareness" tweets during mass emergency[C]. Proceedings of the Fifth International AAAI Conference on Weblogs andSocial Media (ICWSM 2011), 2011: 385-392.
[7]  Piskorski J, Tanev H, Atkinson M, et al. Online news event extraction for global crisis surveillance[C]. In Transactions on computational collective intelligence V, 2011: 182-212.
[8]  张春菊, 张雪英, 朱少楠, 等. 基于网络爬虫的地名数据库维护方法[J]. 地球信息科学学报, 2011, 13(4): 492-499.
[9]  Str?tgen J, Gertz M, Popov P. Extraction and exploration of spatio-temporal information in documents[C]. Proceedings of the ACM 6th Workshop on Geographic Information Retrieval, 2010: 1-8.
[10]  Tahrat S, Kergosien E, Bringay S, et al. Text2Geo: From textual data to geospatial information[C]. Proceedings of the 3rd ACM International Conference on Web Intelligence, Mining and Semantics, 2013: 182-212.
[11]  王曙, 吉雷静, 张雪英, 等. 面向网页文本的地理要素变化检测[J]. 地球信息科学学报, 2013, 15(5): 625-634.
[12]  陈传彬, 陆锋, 励惠国, 等. 自然语言表达实时路况信息的路网匹配融合技术[J]. 中国图象图形学报, 2009, 14(8): 1669-1676.
[13]  姜吉发. 自由文本的信息抽取模式获取的研究[D]. 北京: 中国科学院计算技术研究所, 2004.
[14]  Appelt D E. Introduction to information extraction[J]. AI Communications, 1999, 12(3): 161-172.
[15]  高强, 游宏梁. 事件抽取技术研究综述[J]. 情报理论与实践, 2013, 36(4): 114-117, 128.
[16]  许旭阳, 韩永峰, 宋文政. 事件抽取技术的回顾与展望[J]. 信息工程大学学报, 2011, 12(1): 113-118.
[17]  赵妍妍. 中文事件抽取的相关技术研究[D]. 哈尔滨: 哈尔滨工业大学, 2007.
[18]  Berndt D J, Clifford J. Using dynamic time warping to find patterns in time series[C]. Proceedings of AAAI-94 workshop on knowledge discovery in databases, 1994: 359-370.
[19]  Keogh E J, Pazzani M J. Derivative dynamic time warping[C]. Proceedings of the 2001 SIAM International Conference on Data Mining (SDM-2001), 2001: 1-11.
[20]  程显毅, 朱倩, 王进. 中文信息抽取原理及应用[M]. 北京: 科学出版社, 2010: 19-20.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133