|
软件学报 2014
基于自适应nystr?m采样的大数据谱聚类算法DOI: 10.13328/j.cnki.jos.004643, PP. 2037-2049 Keywords: 大数据,谱聚类,特征分解,nystr?,m扩展,自适应采样 Abstract: 面对结构复杂的数据集,谱聚类是一种灵活而有效的聚类方法,它基于谱图理论,通过将数据点映射到一个由特征向量构成的低维空间,优化数据的结构,得到令人满意的聚类结果.但在谱聚类的过程中,特征分解的计算复杂度通常为o(n3),限制了谱聚类算法在大数据中的应用.nystr?m扩展方法利用数据集中的部分抽样点,进行近似计算,逼近真实的特征空间,可以有效降低计算复杂度,为大数据谱聚类算法提供了新思路.抽样策略的选择对nystr?m扩展技术至关重要,设计了一种自适应的nystr?m采样方法,每个数据点的抽样概率都会在一次采样完成后及时更新,而且从理论上证明了抽样误差会随着采样次数的增加呈指数下降.基于自适应的nystr?m采样方法,提出一种适用于大数据的谱聚类算法,并对该算法的可行性和有效性进行了实验验证.
|