基于百科资源的多策略中文同义词自动抽取研究
Keywords: 同义词抽取,中文同义词,信息抽取,百科语料库
Abstract:
采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路。综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点。实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中。未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵。图1。表6。参考文献13。
References
[1] | Lin Yih-Jeng;Huang Fong-Long,Automatic Extraction of Chinese-English Synonyms Based on a Three-Phase Approach,2004.
|
[2] | Dannells D Automatic acronym recognition 2009
|
[3] | 陆勇;侯汉清 面向信息检索的汉语同义词自动识别 [D].2005
|
[4] | 陈建兴;许中川 智能型同义字词萃取研究 2009
|
[5] | 孙霞.基于监督学习的同义关系自动抽取方法[J].西北大学学报(自然科学版),2008(1)
|
[6] | 章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005(6)
|
[7] | 陆勇,侯汉清.基于PageRank算法的汉语同义词自动识别[J].西华大学学报(自然科学版),2008(2)
|
[8] | 陆勇,侯汉清.基于模式匹配的汉语同义词自动识别[J].情报学报,2006(6)
|
[9] | 吴志强,经济信息后控制词表的研究,南京:南京农业大学,1999.
|
[10] | Senellart P P;Blondel V D,Automatic discovery of similar words,ht-tp://hal.archives-ouvertes.fr/docs/00/16/44/16/PDF/senellart2007automatic.pdf,2009.
|
[11] | Blondel V D,Automatic extraction of synonyms in a dictionary,2002.
|
[12] | 贾爱平 科技文献中术语定义的语言模式研究 [D].2002
|
[13] | 沈桂丽,现代汉语的词语定义研究,桂林:广西师范大学,2004.
|
Full-Text