OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

连续时间部分可观Markov决策过程的策略梯度估计

Full-Text Cite this paper Add to My Lib

Abstract:

针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.

Contact Us

service@oalib.com

WhatsApp +8615387084133