%0 Journal Article %T The policy gradient estimation for continuous-time partially observable Markovian decision processes
连续时间部分可观Markov决策过程的策略梯度估计 %A TANG Bo %A LI Yan-jie %A YIN Bao-qun %A
唐波 %A 李衍杰 %A 殷保群 %J 控制理论与应用 %D 2009 %I %X 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法. 运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型, 研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. %K CTPOMDP %K policy gradient estimation %K conformity %K error bound
连续时间部分可观Markov决策过程 %K 策略梯度估计 %K 一致化 %K 误差界 %U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=970898A57DFC021F93AB51667BAED7F7&aid=4B637EBDEB349782D8C779A0BB6B06E9&yid=DE12191FBD62783C&vid=96C778EE049EE47D&iid=DF92D298D3FF1E6E&sid=8C8D39B86A1EED4F&eid=15890B67B1F0B7E7&journal_id=1000-8152&journal_name=控制理论与应用&referenced_num=0&reference_num=10