%0 Journal Article %T Web数据反馈的搭配抽取方法 %A 林建方 %A 牛成 %A 李生 %A 郑德权 %J 哈尔滨工业大学学报 %P 281-285 %D 2010 %R 10.11918/j.issn.0367-6234.2010.02.023 %X 为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性. %K 搭配 %K 共现频率 %K 互信息 %K 卡方检验 %K 语料库 %K Web %U http://journal.hit.edu.cn/hitxb_cn/ch/reader/view_abstract.aspx?file_no=20100223&flag=1