全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

连续时间部分可观Markov决策过程的策略梯度估计

DOI: 10.7641/j.issn.1000-8152.2009.7.CCTA080248

Keywords: 连续时间部分可观Markov决策过程,策略梯度估计,一致化,误差界

Full-Text   Cite this paper   Add to My Lib

Abstract:

针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133