|
图书情报工作 2013
一种基于类别分布信息的文本特征选择模型Keywords: 文本分类,特征选择,tf-idf,类内分布,类间分布 Abstract: ?tf-idf是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的tf及idf部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得tf部分含有类内文本频数信息,同时idf部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,f1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。
|