%0 Journal Article %T 基于自适应nystr?m采样的大数据谱聚类算法 %A 丁世飞? %A 贾洪杰? %A 史忠植? %J 软件学报 %P 2037-2049 %D 2014 %R 10.13328/j.cnki.jos.004643 %X 面对结构复杂的数据集,谱聚类是一种灵活而有效的聚类方法,它基于谱图理论,通过将数据点映射到一个由特征向量构成的低维空间,优化数据的结构,得到令人满意的聚类结果.但在谱聚类的过程中,特征分解的计算复杂度通常为o(n3),限制了谱聚类算法在大数据中的应用.nystr?m扩展方法利用数据集中的部分抽样点,进行近似计算,逼近真实的特征空间,可以有效降低计算复杂度,为大数据谱聚类算法提供了新思路.抽样策略的选择对nystr?m扩展技术至关重要,设计了一种自适应的nystr?m采样方法,每个数据点的抽样概率都会在一次采样完成后及时更新,而且从理论上证明了抽样误差会随着采样次数的增加呈指数下降.基于自适应的nystr?m采样方法,提出一种适用于大数据的谱聚类算法,并对该算法的可行性和有效性进行了实验验证. %K 大数据 %K 谱聚类 %K 特征分解 %K nystr? %K m扩展 %K 自适应采样 %U http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=4643&flag=1