OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

控制与决策 2007

SMDP基于Actor网络的统一NDP方法

, PP. 155-159

唐昊,陈栋,周雷,吴玉华

Keywords: Markov决策过程,性能势,TD(λ)学习,神经元动态规划

Full-Text Cite this paper Add to My Lib

Abstract:

研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估.利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133