基于领域本体和概念向量的中文文本相似性测度研究
Keywords: 相似性测度,领域本体,概念向量,文本处理
Abstract:
文本相似性测度被广泛用于计算用户提问与文档资源相关程度以及基于内容相似资源推荐。OCVSM是一种基于领域本体和概念向量相似性测度的方法。该方法将军用飞机领域知识本体OntoAvion的概念集作为词汇抽取特征项,根据本体中概念间的关系确定特征项的相似度,最后利用余弦算法计算文本向量相似度。实验证明,该方法与基于语言学词典的相似性测度方法相比,更接近用户对文本相似性的判断。表10。图5。参考文献10。
References
[1] | 李广原. 属性论在文本相似度计算中的应用[J]广西师院学报(自然科学版), 2000,(03).
|
[2] | 张焕炯,王国胜,钟义信. 基于汉明距离的文本相似度计算[J]计算机工程与应用, 2001,(19).
|
[3] | 张承立,陈剑波,齐开悦. 基于语义网的语义相似度算法改进[J]计算机工程与应用, 2006,(17).
|
[4] | 杨建武,陈晓鸥. 基于倒排索引的文本相似搜索[J]计算机工程, 2005,(05).
|
[5] | 王家钺. 信息检索中“相关性”概念的研究[J]现代外语, 2001,(02).
|
[6] | 廉雄杰. 基于数据压缩的文本相似性计算[J]延边大学学报(自然科学版), 2004,(02).
|
Full-Text