全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

w-pos语言模型及其选择与匹配算法

Keywords: n-grams语言模型,词性,冗余度,稀疏数据,特征选择

Full-Text   Cite this paper   Add to My Lib

Abstract:

?n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模型,提出一种改进的n-grams语言模型——w-pos。将分词后文本中出现概率较小的词和冗余词用词性代替,得到由词和词性的不规则排列组成的w-pos语言模型,并提出该语言模型的选择规则、选择算法以及与测试集的匹配算法。在复旦大学中文语料库和英文语料库20newsgroups中的实验结果表明,w-pos语言模型既继承了n-grams语言模型减少特征数量、携带部分语义和提高精度的优点,又克服了n-grams语言模型产生大量稀疏数据、含有冗余词的缺陷,并验证了选择和匹配算法的有效性。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133