|
计算机科学 2014
基于qsa数组计算序列中所有ne重复模式的算法Keywords: 重复模式,数据挖掘,统计特征,约束条件,生物计算,维吾尔语web文本中图法分类号tp391文献标识码a Abstract: 序列中重复模式的识别与提取算法在数据挖掘、模式识别、数据压缩、生物信息学等领域中具有广泛的实际应用。提出一种全新的基于qsa数组计算所有带有约束条件的ne重复模式的算法rpt。算法设计中充分考虑了ne重复模式的特征,以建立特征和重复模式检测结果之间的统计联系;算法中的约束条件包括最小周期pmin和最大间距gmax,其可用于筛选符合条件的ne重复模式,并可按照递增序输出所有ne重复模式的出现位置。与已有的基于后缀索引的算法相比,此算法的空间效率得到了提高。在分类属性数据样本集上进行的实验表明,算法rpt对生物序列尤其是dna序列以及维吾尔语web文本中ne重复模式的识别与提取都很有效。
|