%0 Journal Article
%T The policy gradient estimation for continuous-time partially observable Markovian decision processes<br>连续时间部分可观Markov决策过程的策略梯度估计
%A TANG Bo
%A LI Yan-jie
%A YIN Bao-qun
%A <br>唐波
%A 李衍杰
%A 殷保群
%J 控制理论与应用
%D 2009
%I 
%X 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法. 运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型, 研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.
%K CTPOMDP
%K policy gradient estimation
%K conformity
%K error bound<br>连续时间部分可观Markov决策过程
%K 策略梯度估计
%K 一致化
%K 误差界
%U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=970898A57DFC021F93AB51667BAED7F7&aid=4B637EBDEB349782D8C779A0BB6B06E9&yid=DE12191FBD62783C&vid=96C778EE049EE47D&iid=DF92D298D3FF1E6E&sid=8C8D39B86A1EED4F&eid=15890B67B1F0B7E7&journal_id=1000-8152&journal_name=控制理论与应用&referenced_num=0&reference_num=10