%0 Journal Article %T 基于策略迭代和值迭代的POMDP算法 %A 孙 湧 仵 博 冯延蓬 %J - %D 2008 %X 部分可观察Markov决策过程是通过引入信念状态空间将非Ma.. %K [部分可观察Markov决策 %K 决策算法 %K 智能体 %K 值迭代 %K 策略迭代 %K POMDP %K decision algorithm %K agent %K value iteration %K policy iteration] %U http://crad.ict.ac.cn/CN/Y2008/V45/I10/1763