|
中山大学学报(自然科学版) 2015
云环境下的Max/Min在线聚集技术研究Keywords: 在线聚集,云计算,切比雪夫不等式,中心极限定理 Abstract: 摘要 数据探索作为数据分析的一个重要环节,必须能够高效的获取数据集的关键性指标,比如最大/最小值、均值等.关系数据库中这些指标可以通过SQL语句的聚集函数得到.为了实现海量数据下的高效聚集,关系数据库领域学者提出了在线聚集.在大数据时代,云环境下的在线聚集技术开始得到重视.但是目前云环境下的在线聚集研究基本是针对Count、Sum等聚集函数,尚未有针对Max/Min在线聚集的研究.本文利用切比雪夫不等式和中心极限定理,通过分位数来衡量Max/Min在线聚集的精确度.实验证明,该方法能够很好的适应大数据环境下的在线聚集,并具有良好的扩展性
|