%0 Journal Article %T 基于马氏决策过程模型的动态系统学习控制:研究前沿与展望 %A 徐昕 %A 沈栋 %A %A 高岩青 %A %A 王凯 %A 5 %J 自动化学报 %P 673-687 %D 2012 %R 10.3724/SP.J.1004.2012.00673 %X ?基于马氏决策过程(Markovdecisionprocess,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制.本文对基于MDP的动态系统学习控制理论、算法与应用的发展前沿进行综述,重点讨论增强学习(Reinforcementlearning,RL)与近似动态规划(Approximatedynamicprogramming,ADP)理论与方法的研究进展,其中包括时域差值学习理论、求解连续状态与行为空间MDP的值函数逼近方法、直接策略搜索与近似策略迭代、自适应评价设计算法等,最后对相关研究领域的应用及发展趋势进行分析和探讨. %K 学习控制 %K Markov决策过程 %K 增强学习 %K 近似动态规划 %K 机器学习 %K 自适应控制 %U http://www.aas.net.cn/CN/abstract/abstract13349.shtml