%0 Journal Article
%T 连续时间部分可观Markov决策过程的策略梯度估计
%A 唐波
%A 李衍杰
%A 殷保群
%J 控制理论与应用
%D 2009
%R 10.7641/j.issn.1000-8152.2009.7.CCTA080248
%X 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.
%K 连续时间部分可观Markov决策过程
%K 策略梯度估计
%K 一致化
%K 误差界
%U http://jcta.alljournals.ac.cn/cta_cn/ch/reader/view_abstract.aspx?file_no=CCTA080248&flag=1