|
重庆邮电大学学报(自然科学版) 2011
一种基于主动学习和TCM-EKNN的邮件过滤方法Keywords: 垃圾邮件,邮件过滤,主动学习,直推式可信K近邻,证据理论 Abstract: 目前结合机器学习、文本分类的过滤方法成为研究热点。而这些过滤方法在邮件过滤时存在使用训练集数据量和表征数据的特征向量维数过多,引发“维灾难”和较大的运算量等问题。结合证据理论K近邻方法(evidencetheorybasedK-nearestneighbors,EKNN)和直推式信度机(transductiveconfidencemachines,TCM)算法思想,提出一种TCM-EKNN的邮件过滤方法,并且采用主动学习样本选择方法选择较少高质量的训练样本构建邮件分类器从而高效地实现垃圾邮件过滤。对比实验结果表明:相对于传统的邮件过滤方法,TCM-EKNN获得了良好的过滤效果,从而论证了TCMEKNN有效性;并且在保证传统的邮件过滤方法同等高准确率前提下,TCM-EKNN采用主动学习方法后,极大地减少了训练样本数量,提高了过滤器性能,在各项评价指标上具有优越性。
|