|
河北科技大学学报 2014
分布式数据挖掘综述DOI: 10.7535/hbkd.2013yx05012, PP. 80-90 Keywords: 分布式数据挖掘,数据挖掘,本体,语义距离 Abstract: 随着网络技术、通信技术等的不断突破,互联网、移动网、广电网等多种类现代网络及其衍生业务迅速扩张,形成泛在于网络空间的分布式计算环境。为了最大化这些数据的价值,需要利用数据挖掘技术发现其中隐藏的模式或规则,用以指导和辅助生产或运营中的管理决策行为,以提高决策水平及决策收益。然而,受到普遍存在的异构性、私有性和平台兼容性等限制,兼因行业竞争和法律约束等因素(如个人或企业的数据隐私保护问题等),互联于网络的数据源难于进行集中式挖掘,分布式数据挖掘(ddm)技术应运而生。-〓〓收稿日期:2013-04-22;修回日期:2013-05-20;责任编辑:王海云基金项目:国家自然科学基金(71271076)作者简介:刘〓滨(1975-),男,河北石家庄人,教授,博士,主要从事数据挖掘方面的研究。e-mail:liubin@hebust.edu.cn刘〓滨.分布式数据挖掘综述[j].河北科技大学学报,2014,35(1):80-90.liubin.surveyondistributeddatamining[j].journalofhebeiuniversityofscienceandtechnology,2014,35(1):80-90.介绍了ddm的定义与框架、适用场景和研究挑战。根据文中给出的ddm高层架构,最终结果的质量与局部数据源的类型、可用性、局部结果的质量及整合方法等密切相关。ddm的实施未必都以站点间纯粹独立挖掘的方式进行,此外,对于数据集中,系统分布式站点多的情况,也可采用ddm。当前,ddm研究领域的挑战主要有:异构与同构挖掘、动态环境下的数据多变性、通信开销、知识整合和语义异构等。当前的ddm系统被分为4类:1)基于multi-agent的系统,利用agent的自治性实现局部挖掘以保护数据私有性;利用agent的主动性减少用户参与以提高挖掘自动化水平;利用agent的协作性实现多算法协同挖掘等;2)基于网格的系统,利用网格在资源共享、开放服务和协同工作等方面的优势,提高挖掘的可靠性和协同性;3)基于元学习的系统,通过元学习优化挖掘算法的选择与组合,并对已获知识进行多次学习以提高结果质量;4)基于cdm(collectivedatamining)框架的系统,将待学习的函数表示为一组基函数的分布式存在,允许各数据源选择不同的学习算法,并以全局结果正确为前提减少网络通信量。进而,对当前ddm研究存在的共性问题进行了归纳:1)结果质量问题,不考虑各个站点数据源间的内在语义联系,各站点独立挖掘本地数据,与其他站点间无语义层面的数据交互或融合,形成纯粹的“分割式”挖掘,最终导致全局结果质量受损;2)挖掘效率问题,如何调度资源以平衡挖掘负载、减少协作挖掘中的通信开销问题。针对结果质量问题,探讨本体与数据挖掘的结合。作为语义网的基础,本体能为对象语义距离度量提供有效支持。当前,在利用本体描述挖掘任务的领域背景方面,利用本体描述dm过程本身方面,都已经有研究人员进行了探索性工作:针对关联规则挖掘中需要从海量规则中遴选有效规则的问题,提出了交互式的、用于删减冗余规则的挖掘后处理方法;针对在给定知识发现过程的输入和输出类型前提下,知识发现工作流的自动构造问题,提出了解决方法。通过阐述可知,为了提升分布式挖掘过程中局部结果和最终结果的质量,策略之一就是将ddm理论和本体理论作融合,以数据源间语义距离的度量为突破口,建立语义距离度量的复合量化体系,通过构建和求解新型ddm模型来实现目标。
|