%0 Journal Article %T Sequence Clustering Algorithms Based on Global and Local Similarity
基于整体和局部相似性的序列聚类算法 %A DAI Dong-Bo %A TANG Chun-Lei %A XIONG Yun %A
戴东波 %A 汤春蕾 %A 熊赟 %J 软件学报 %D 2010 %I %X 现有的很多序列聚类算法是基于“局部特征可以表征整个序列”的假设来进行的,即不区分实际应用中序列的整体相似性和局部相似性.这对存在保守子模式的序列,如DNA和蛋白质序列是适用的,但对一些注重整体序列相似性的应用领域,如:在交易数据库中用户购买行为的比较,时间序列数据中全局模式的匹配等,由于难以产生频繁子模式,用基于全局相似性的度量方法进行聚类显得更为合理.此外,在基于局部相似性的序列聚类算法中,选取的局部子模式表征序列的能力也有待进一步提高.由此,针对不同应用领域,分别提出基于整体相似性的序列聚类算法GSClu和基于局部相似性的序列聚类算法LSClu.GSClu和LSClu分别利用带剪枝策略的二分k均值算法和基于有gap约束的强区分度子模式方法对各自领域的序列数据进行聚类.实验采用交易序列数据和蛋白质序列数据,实验结果表明,GSClu和LSClu对各自领域的序列数据具有较快的处理速度和良好的聚类质量. %K sequence data %K similarity %K clustering
序列数据 %K 相似性 %K 聚类 %U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=7735F413D429542E610B3D6AC0D5EC59&aid=24D33ACC1983F60B12BF5CBE0ED1C3B3&yid=140ECF96957D60B2&vid=659D3B06EBF534A7&iid=E158A972A605785F&sid=6C3EA4F7B6E5F836&eid=E5ED9059DE792E50&journal_id=1000-9825&journal_name=软件学报&referenced_num=0&reference_num=26