|
控制理论与应用 2009
连续时间部分可观Markov决策过程的策略梯度估计DOI: 10.7641/j.issn.1000-8152.2009.7.CCTA080248 Keywords: 连续时间部分可观Markov决策过程,策略梯度估计,一致化,误差界 Abstract: 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.
|