|
软件学报 2007
dna序列数据挖掘技术, PP. 2766-2781 Keywords: dna序列,数据挖掘,生物信息学,序列模式,序列相似性 Abstract: dna序列数据是一类重要的生物数据.研究dna序列数据解读其含义是后基因组时代的主要研究任务.数据挖掘是目前最有效的数据分析手段之一,用于发现大量数据所隐含的各种规律,也是生物信息学采用的主要数据分析技术.将数据挖掘技术用于dna序列数据分析,已得到了广泛关注和快速发展,并取得了许多研究成果.综述了dna序列数据挖掘领域的研究状况和进展,提出了3个研究阶段:基于统计的挖掘方法应用阶段、一般化挖掘方法应用阶段和专门的dna序列数据挖掘方法设计阶段.阐述了dna序列数据挖掘的基础是序列相似性,评述了dna序列数据挖掘领域所采用的关键技术,包括dna序列模式、关联、聚类、分类和异常挖掘等,分析讨论了其相应的生物应用背景和意义.最后给出dna序列数据挖掘进一步研究的热点问题,包括dna序列数据新的存储和索引机制的设计、根据生物领域知识的数据挖掘新模型和算法的设计等.
|