|
重庆大学学报 2005
基于全局折扣的统计语言模型平滑技术DOI: 10.11835/j.issn.1000-582X.2005.08.014 Keywords: 统计语言模型,平滑技术,全局折扣,困惑度,折扣,统计语言模型,平滑技术,Global,Based,Language,Model,Statistical,Technique,结果,实验,原则,极小化,补偿策略,事件,概率,对零,低阶模型,程度,频率值,思想 Abstract: 数据平滑是用来解决统计语言模型在实际应用中遇到的数据稀疏问题.现有平滑技术利用不同的折扣和补偿策略来处理数据稀疏问题,在计算复杂性与合理性方面各有其优缺点.针对二元模型,笔者提出了一种基于全局折扣GD(GlobalDiscount)的平滑技术,其基本思想是对模型中每个二元对的频率值都进行不同程度的折扣,并用低阶模型对零概率事件进行补偿,通过极小化困惑度原则体现了模型的合理性.实验结果表明该平滑技术优于目前常用的Katz平滑技术.
|