%0 Journal Article %T 基于线性平均的强化学习函数估计算法 %A 陶隽源 %A 孙金玮 %A 李德胜 %J 吉林大学学报(工学版) %P 1407-1411 %D 2008 %X 提出了一种基于最小线性平均的强化学习算法,用于解决连续空间下强化学习函数估计的非收敛性问题。该算法基于梯度下降法,根据压缩映射原理,通过采用线性平均法作为值函数估计的性能衡量标准,把值函数估计的迭代过程转化为一个收敛于不动点的过程。该算法利用强化学习算法的标准问题MountainCar问题进行了验证,仿真结果验证了算法是有效的和可行的,并且可以快速收敛到稳定值。 %K 自动控制技术 %K 强化学习 %K 线性平均 %K 函数估计 %K 梯度下降法 %K 自动控制技术 %K 强化学习 %K 线性平均 %K 函数估计 %K 梯度下降法 %U http://xuebao.jlu.edu.cn/gxb/CN/Y2008/V38/I06/1407