%0 Journal Article %T 折扣马尔可夫决策规划最优策略的结构 %A 董泽清 %J 科学通报 %P 1021-1021 %D 1984 %X 本文所研究的马尔可夫决策规划{S,(A(t),i∈S),q,r,V_s},其中状态空间S、每个状态可用的行动集A(i)(i∈S)均为可列集,转移律q是时齐的,报酬函数r是有界的,折扣目标是V_β(β∈(0,1))。其主要结果如下 %U http://csb.scichina.com:8080/CN/abstract/abstract355898.shtml