|
软件学报 2002
基于web-logmining的web文档聚类, PP. 99-104 Keywords: 数据库,聚类,web,mining,数据挖掘 Abstract: 速度和效果是聚类算法面临的两大问题.dbscan(densitybasedspatialclusteringofapplicationswithnoise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursivedensitybasedclusteringalgorithm,简称rdbc),此算法可以智能地、动态地修改其密度参数.rdbc是基于dbscan的一种改进算法,其运算复杂度和dbscan相同.通过在web文档上的聚类实验,结果表明,rdbc不但保留了dbscan高速度的优点,而且聚类效果大大优于dbscan.
|