|
图书情报工作 2013
基于概念簇的文本分类算法Keywords: 文本分类,语义概念向量,概念簇,knn,知网 Abstract: ?针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(hownet)为知识库,构建语义概念向量模型scvm(semanticconceptvectormodel)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法tcabcc(textclassificationalgorithmbasedontheconceptofclusters),通过改进传统knn,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表明,该算法构造的分类器在效率和性能上均比传统knn有较大的提高。
|