%0 Journal Article %T 基于强化学习的JLQ模型的直接自适应最优控制 %A 徐琰恺 %A 陈曦 %J 控制与决策 %P 1359-1362 %D 2008 %X 研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算法,以优化系统性能.在系统参数以及模态跳变概率未知的情况下,Q函数对应的参数矩阵,可通过观察给定策略下系统行为,应用递归最小二乘算法在线估计.基于此参数矩阵,可构造出新的策略使得系统性能更优.该算法可收敛到最优策略. %K Markov %K 跳变线性系统 %K 策略迭代 %K Q %K 函数 %K 直接自适应最优控制')" %K href="#">Markov %K 跳变线性系统 %K 策略迭代 %K Q %K 函数 %K 直接自适应最优控制 %U http://www.kzyjc.net:8080/CN/abstract/abstract8884.shtml