|
自动化学报 2008
中文人称名词短语单复数自动识别DOI: 10.3724/SP.J.1004.2008.00972, PP. 972-979 Abstract: ?名词短语的单复数信息在共指消解中是必不可少的特征.与英语不同,中文属于汉藏语系,名词本身不能明显体现单复数信息,需要借助其所在的名词短语来进行体现.本文在自动内容抽取(Automaticcontentextraction,ACE)语料上抽取得到人称名词短语的单复数信息,分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别.基于规则的方法,在一些知识资源的基础上定义了规则模板库,每条规则采用槽和槽值的方法来进行体现;机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征.两种方法分别达到了48.24\%和87.48\%的正确率.实验结果显示,基于规则的方法能够保证精确率而不能保证召回率,机器学习的方法可以更好地完成单复数信息的识别任务.
|