%0 Journal Article %T 面向口语统计语言模型建模的自动语料生成算法 %A 司玉景 %A 肖业鸣 %A 徐及 %A 潘接林 %A 颜永红 %J 自动化学报 %P 2808-2814 %D 2014 %R 10.3724/SP.J.1004.2014.02808 %X ?在资源相对匮乏的自动语音识别(Automaticspeechrecognition,ASR)领域,如面向电话交谈的语音识别系统中,统计语言模型(Languagemodel,LM)存在着严重的数据稀疏问题.本文提出了一种基于等概率事件的采样语料生成算法,自动生成领域相关的语料,用来强化统计语言模型建模.实验结果表明,加入本算法生成的采样语料可以缓解语言模型的稀疏性,从而提升整个语音识别系统的性能.在开发集上语言模型的困惑度相对降低7.5%,字错误率(Charactererrorrate,CER)绝对降低0.2个点;在测试集上语言模型的困惑度相对降低6%,字错误率绝对降低0.4点. %K 自动语音识别 %K 资源匮乏 %K 语言模型 %K 等概率事件 %K 语料生成算法 %U http://www.aas.net.cn/CN/abstract/abstract18559.shtml