|
- 2018
基于改进TFIDF 算法的邮件分类技术DOI: 10.3969/ j. issn.1673-629X.2018.08.006 Keywords: 邮件分类, 区分度, 特征词, 权值, 特征提取 Abstract: 随着电子邮件的普及,垃圾邮件的泛滥问题也逐渐引起人们的关注,垃圾邮件分类技术的研究成为了近年来的热点课题。 邮件特征选择会直接影响到分类的效率和精确度,使用 TFIDF 算法可以有效评估一个特征项对于邮件分类的重要程度。 但在邮件分类中单纯使用 TFIDF 来判断一个特征是否有区分度还存在很多的不足:没有考虑到特征词在类间和类内的分布情况,低估了高频词的作用并高估了低频词的作用。 对 TFIDF 算法进行修改,降低特例邮件中频繁出现的特征词的影响,引入了频率差,增加了在类中频繁出现的词条的权值,并减小了在类中出现频率小的词条的权值。 最终将改进的 TFIDF 算法与传统特征提取算法进行对比。 实验结果表明,改进算法可以选择出更合适的特征项集合,从而使邮件分类的效果更好
|