%0 Journal Article %T 邮件过滤中特征选择算法的研究及改进 %A 卢扬竹 %A 张新有 %A 祁玉 %J 计算机应用 %D 2009 %X ?对基于内容的垃圾邮件过滤技术尤其是特征选择算法进行了研究。在此基础上,对其中的互信息算法进行了分析,并将其与邮件过滤的特点结合起来进行,在频度、集中度及分散度三个指标上进行改进,在原互信息算法已考虑分散度的基础上,引入词频来表征频度,以类别贡献比来衡量特征对分类的贡献,即表征集中度,并给出了改进后的互信息计算公式及算法。最后使用真实邮件训练集进行了邮件分类的实验,实验结果证明对互信息算法的改进能有效提高邮件分类性能。 %K 垃圾邮件 %K 文本分类 %K 特征选择 %K 互信息 %U http://www.joca.cn/CN/abstract/abstract12341.shtml