全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

平均和折扣准则MDP基于TD(0)学习的统一NDP方法

Keywords: Markov决策过程,性能势,TD(0)学习,神经元动态规划

Full-Text   Cite this paper   Add to My Lib

Abstract:

为适应实际大规模Markov系统的需要,讨论Markov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynamicprogramming,NDP)优化方法.研究结果适用于半Markov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133