%0 Journal Article %T Extracting Abbreviated Names for Chinese Entities from the Web
从中文Web网页中获取实体简称的研究 %A DING Yuan-jun %A CAO Cun-gen %A WANG Shi %A FU Jian-hui %A
丁远钧 %A 曹存根 %A 王石 %A 符建辉 %J 计算机科学 %D 2012 %I %X 简称是自然语言词汇的重要组成部分,其获取是自然语言处理中的一个基本而又关键的问题。提出了一种根据汉语全称从Web中获取对应汉语简称的方法。该方法包括获取和验证两个步骤。获取步骤通过选择查询模式从Web上获得候选简称集合。为了验证候选简称,定义了全简称关系约束,分别定性和定量地表示全称和对应简称之间的约束,构建了全简称关系图来表示所有全称和简称之间的联系,在验证过程中,先分别用约束公理和关系图对候选简称进行过滤,再用约束函数对候选简称分类,并以分类类别、语料标记和约束函数值作为属性构建决策树,利用决策树对候选简称进行验证。实验结果表明,获取方法的最终准确率为94.63%,召回率为84.0900,验证方法的准确率为94. 81 %. %K Natural language processing %K Abbreviation acctuisition %K Constraint axioms Constraint functions %K Relation group
自然语言处理,简称获取,约束公理,约束函数,关系图 %U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=64A12D73428C8B8DBFB978D04DFEB3C1&aid=D5B7C4A24E11D7BA4ADDC4E92C7CC06D&yid=99E9153A83D4CB11&vid=7C3A4C1EE6A45749&iid=38B194292C032A66&sid=DD74772618543076&eid=50BBDFAC8381694B&journal_id=1002-137X&journal_name=计算机科学&referenced_num=0&reference_num=0