Spam Email Filtering Based on PPM Algorithm
基于PPM算法的垃圾邮件过滤方法
Keywords: 垃圾邮件过滤,PPM数据压缩,上下文模型交叉熵
Abstract:
本文在简要介绍PPM数据压缩算法及其改进的基础上,着重论述该算法在垃圾邮件过滤中的应用。首先将样本邮件进行文本预处理,并对正常邮件和垃圾邮件训练集进行训练,分别建立上下文模型;然后输入待过滤邮件,与PPM压缩模型进行比较,分别计算交叉熵以判断邮件类型;最后,测试结果表明,该算法达到较好效果。
Full-Text