|
计算机科学 2002
Wavlet Transform-based Outlier Mining
|
Abstract:
1 引言例外常常是指数据集中远远偏离其它对象的那些小比例对象,在大多数研究中作为噪声被遗弃。但是在一些应用中,例外的检测能为我们提供比较重要的信息,使我们发现一些真实而又出乎预料的知识,具有很高的实用价值,如文挖掘了时序数据中的例外,从而在存储容量相同的情况下,可以获得对原始序列更精确的表示。目前例外挖掘方法可以广义地分为3类:基于分布的方法、基于深度的方法及基于距离的方法。基于深度的方法避免了基于分布的方法中的分布适应性问题,扩展了例外挖掘的应用,但已有的基于深度的方法只有在数据维数k≤2时,效果才被人们接受。基于距离的方法不受数据维数的限制,超越了数据空间,它仅仅依赖于米制距离函数的距离值计算。