全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...
软件学报  2007 

语言建模中最小化样本风险算法的研究和改进

, PP. 196-204

Keywords: 语言建模,判别训练算法,输入法编辑器,最小化样本风险,领域适应性建模

Full-Text   Cite this paper   Add to My Lib

Abstract:

目前,一些主流的判别学习算法只能优化光滑可导的损失函数,但在自然语言处理(naturallanguageprocessing,简称nlp)中,很多应用的直接评价标准(如字符转换错误数(charactererrorrate,简称cer))都是不可导的阶梯形函数.为解决此问题,研究了一种新提出的判别学习算法--最小化样本风险(minimumsamplerisk,简称msr)算法.与其他判别训练算法不同,msr算法直接使用阶梯形函数作为其损失函数.首先,对msr算法的时空复杂性作了分析和提高;同时,提出了改进的算法msr-ii,使得特征之间相关性的计算更加稳定.此外,还通过大量领域适应性建模实验来考察msr-ii的鲁棒性.日文汉字输入实验的评测结果表明:(1)msr/msr-ii显著优于传统三元模型,使错误率下降了20.9%;(2)msr/msr-ii与另两类主流判别学习算法boosting和perceptron表现相当;(3)msr-ii不仅在时空复杂度上优于msr,特征选择的稳定性也更高;(4)领域适应性建模的结果证明了msr-ii的良好鲁棒性.总之,msr/msr-ii是一种非常有效的算法.由于其使用的是阶梯形的损失函数,因此可以广泛应用于自然语言处理的各个领域,如拼写校正和机器翻译.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133