|
自动化学报 1964
可控碼尔可夫鏈的一种最优决策, PP. 146-154 Abstract: ?本文研究了一种最优马尔可夫控制系统,这种控制系统以统计规律依赖于决定序列的马尔可夫链描述.我们称决定序列为决策.存在一具有下述性质的目标状态,一日系统到达此状态,状态就不再改变.我们的目的是要选取一决策,使所有从每一初始状态出发最终到达此目标状态的概率都达到最大.我们先提出在平稳决策集合中求最优决策的决策迭代法.然后证明,此决策在包含平稳及不平稳决策的决策集合上也是最优的.
|