%0 Journal Article
%T 基于策略迭代和值迭代的POMDP算法
%A 孙  湧  仵  博  冯延蓬
%J -
%D 2008
%X 部分可观察Markov决策过程是通过引入信念状态空间将非Ma..
%K [部分可观察Markov决策
%K 决策算法
%K 智能体
%K 值迭代
%K 策略迭代
%K POMDP
%K decision algorithm
%K agent
%K value iteration
%K policy iteration]
%U http://crad.ict.ac.cn/CN/Y2008/V45/I10/1763