|
计算机科学 2002
Fuzzy Set in Time Series Matching
|
Abstract:
一个时间序列可以定义为一系列的数值,每一个数值代表一个时间点的值。在数据库和数据仓库应用中,时间序列数据是一类非常重要的数据类型。时间序列的相似性的判定,有基于欧几里得距离的判定方法和包络线方法。欧几里得距离方法对序列中的噪声很敏感,而且欧几里得距离随着序列长度的增加而变大。Rakesh Agrawal等所提出的方法,是将匹配的子序列按顺序连接来判定两个序列的相似性,如果一个子序列落入另一个子序列的包络线区间内(如图1),那么认为这两个于序列是匹配的,例外的数据被忽略,该方法的本质是在两个序列中包含一定比率的相匹配的子序列。该方法避免了欧几里得距离的缺点,任意长度序列的相似性的判定使用统一的标准。但是相似性的判定在包络线边界处发生了突变。