%0 Journal Article %T 平均准则问题的即时差分学习算法 %A 胡光华 %A 吴沧浦 %J 自动化学报 %P 533-536 %D 2000 %X ?考虑平均准则随机动态规划(SDP)问题的一族在线即时差分(TD)学习算法.在学习中,平均问题的相对值函数是控制器所要学习的目标函数.所提出的算法是已有的TD(λ)算法及R-学习算法的一种推广. %K 即时差分学习 %K 强化学习 %K 动态规划 %K MonteCarlo方法 %U http://www.aas.net.cn/CN/abstract/abstract16555.shtml