|
河北科技大学学报 2015
基于pos-cbow语言模型的相似词分析DOI: 10.7535/hbkd.2015yx05014, PP. 532-538 Keywords: 自然语言处理,语言模型,词向量,相似词,pos-cbow Abstract: 相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(pos-cbow)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于pos-cbow语言模型的相似词分析算法优于传统cbow语言模型。
|