|
中山大学学报(自然科学版) 2016
基于资格迹的RBF非线性系统强化学习研究Keywords: 连续状态,非线性系统,资格迹,强化学习,RBF Abstract: 摘要 针对非线性系统控制中具有的连续状态和未知系统模型的问题,提出一种基于ETRBF(资格迹和径向基函数)的Sarsa学习控制策略.由于经典强化学习在面临连续状态空间的泛化时会出现的“维数灾难”问题,本文利用RBF(Radial Basis Function)网络良好的动态特性及泛化能力,实现状态—动作对的在线估计,同时借鉴TD(λ)算法中的资格迹机制,与在线Sarsa学习结合,通过对RBF网络权值向量定义资格迹,将当前的TD Error传播至整个状态空间,保证每个输出只影响与其直接相关的权值w.由于所有被访问状态—动作对对权值w的影响均得以保存在e(t)中,因而相当于在每个迭代周期对所有已访问状态—动作对的Q值进行更新,所以收敛更快.实验中将所提方法应用于具有连续状态的mountaincar控制问题,使学习系统能够在经过5次左右的尝试后,获得小车爬山控制策略,能在平均34步的动作范围内,到达山顶.仿真结果表明基于ETRBF的Sarsa能够更有效解决具有连续状态的非线性系统的强化学习控制问题
|