OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

河北科技大学学报 2014

分布式数据挖掘综述

DOI: 10.7535/hbkd.2013yx05012, PP. 80-90

刘滨？

Keywords: 分布式数据挖掘,数据挖掘,本体,语义距离

Full-Text Cite this paper Add to My Lib

Abstract:

随着网络技术、通信技术等的不断突破，互联网、移动网、广电网等多种类现代网络及其衍生业务迅速扩张，形成泛在于网络空间的分布式计算环境。为了最大化这些数据的价值，需要利用数据挖掘技术发现其中隐藏的模式或规则，用以指导和辅助生产或运营中的管理决策行为，以提高决策水平及决策收益。然而，受到普遍存在的异构性、私有性和平台兼容性等限制，兼因行业竞争和法律约束等因素(如个人或企业的数据隐私保护问题等)，互联于网络的数据源难于进行集中式挖掘，分布式数据挖掘(ddm)技术应运而生。-〓〓收稿日期:2013-04-22；修回日期:2013-05-20；责任编辑:王海云基金项目:国家自然科学基金(71271076)作者简介:刘〓滨(1975-)，男，河北石家庄人，教授，博士，主要从事数据挖掘方面的研究。e-mail:liubin@hebust.edu.cn刘〓滨.分布式数据挖掘综述［j］.河北科技大学学报，2014，35(1):80-90.liubin.surveyondistributeddatamining［j］.journalofhebeiuniversityofscienceandtechnology，2014，35(1):80-90.介绍了ddm的定义与框架、适用场景和研究挑战。根据文中给出的ddm高层架构，最终结果的质量与局部数据源的类型、可用性、局部结果的质量及整合方法等密切相关。ddm的实施未必都以站点间纯粹独立挖掘的方式进行，此外，对于数据集中，系统分布式站点多的情况，也可采用ddm。当前，ddm研究领域的挑战主要有:异构与同构挖掘、动态环境下的数据多变性、通信开销、知识整合和语义异构等。当前的ddm系统被分为4类:1)基于multi-agent的系统，利用agent的自治性实现局部挖掘以保护数据私有性；利用agent的主动性减少用户参与以提高挖掘自动化水平；利用agent的协作性实现多算法协同挖掘等；2)基于网格的系统，利用网格在资源共享、开放服务和协同工作等方面的优势，提高挖掘的可靠性和协同性；3)基于元学习的系统，通过元学习优化挖掘算法的选择与组合，并对已获知识进行多次学习以提高结果质量；4)基于cdm(collectivedatamining)框架的系统，将待学习的函数表示为一组基函数的分布式存在，允许各数据源选择不同的学习算法，并以全局结果正确为前提减少网络通信量。进而，对当前ddm研究存在的共性问题进行了归纳:1)结果质量问题，不考虑各个站点数据源间的内在语义联系，各站点独立挖掘本地数据，与其他站点间无语义层面的数据交互或融合，形成纯粹的“分割式”挖掘，最终导致全局结果质量受损；2)挖掘效率问题，如何调度资源以平衡挖掘负载、减少协作挖掘中的通信开销问题。针对结果质量问题，探讨本体与数据挖掘的结合。作为语义网的基础，本体能为对象语义距离度量提供有效支持。当前，在利用本体描述挖掘任务的领域背景方面，利用本体描述dm过程本身方面，都已经有研究人员进行了探索性工作:针对关联规则挖掘中需要从海量规则中遴选有效规则的问题，提出了交互式的、用于删减冗余规则的挖掘后处理方法；针对在给定知识发现过程的输入和输出类型前提下，知识发现工作流的自动构造问题，提出了解决方法。通过阐述可知，为了提升分布式挖掘过程中局部结果和最终结果的质量，策略之一就是将ddm理论和本体理论作融合，以数据源间语义距离的度量为突破口，建立语义距离度量的复合量化体系，通过构建和求解新型ddm模型来实现目标。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133