%0 Journal Article %T 连续时间部分可观Markov决策过程的策略梯度估计 %A 唐波 %A 李衍杰 %A 殷保群 %J 控制理论与应用 %D 2009 %R 10.7641/j.issn.1000-8152.2009.7.CCTA080248 %X 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. %K 连续时间部分可观Markov决策过程 %K 策略梯度估计 %K 一致化 %K 误差界 %U http://jcta.alljournals.ac.cn/cta_cn/ch/reader/view_abstract.aspx?file_no=CCTA080248&flag=1