%0 Journal Article %T 基于云计算的web数据挖掘 %A 程苗? %J 计算机科学 %D 2011 %X 因特网是一个巨大的、分布广泛的信息服务中心,其上产生的海量数据通常是地理上分布、异构、动态的,复杂性也越来越高,若用已有的集中式数据挖掘方法则不能满足应用的要求。为了解决这些问题,提出了一种基于云计算的web数据挖掘方法:将海量数据和挖掘任务分解到多台服务器上并行处理。采用hadoop开源平台,建立一个基于apriori算法的并行关联规则挖掘算法来验证了该系统的高效性。还提出“计算向存储迁移”的设计思想,将计算在数据存储节点就地执行,从而避免了大量数据在网络上的传递,不会占用大量带宽。 %K 云计算 %K 数据挖掘 %K map/reduce %K 关联规则 %U http://www.jsjkx.com/jsjkx/ch/reader/view_abstract.aspx?file_no=1110040&flag=1