%0 Journal Article %T 平均和折扣准则MDP基于TD(0)学习的统一NDP方法 %A 唐昊 %A 周雷 %A 袁继彬 %J 控制理论与应用 %D 2006 %X 为适应实际大规模Markov系统的需要,讨论Markov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynamicprogramming,NDP)优化方法.研究结果适用于半Markov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况. %K Markov决策过程 %K 性能势 %K TD(0)学习 %K 神经元动态规划 %U http://jcta.alljournals.ac.cn/cta_cn/ch/reader/view_abstract.aspx?file_no=200602025&flag=1