%0 Journal Article %T 一种基于类别分布信息的文本特征选择模型 %A 刘海峰 %A 于利军 %A 刘守生 %J 图书情报工作 %D 2013 %X ?tf-idf是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的tf及idf部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得tf部分含有类内文本频数信息,同时idf部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,f1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。 %K 文本分类 %K 特征选择 %K tf-idf %K 类内分布 %K 类间分布 %U http://124.16.154.130:8080/lis/CN/abstract/abstract13282.shtml