|
科学通报 1999
评《马氏决策过程》Abstract: 从50年代以来,马氏决策过程(简记为MDP)一直为数学家、概率与运筹学工作者及工程界人士所关注.在MDP中,决策者通过选取不同的“策略”来控制一个随机动态系统,其目的是使报酬函数极大化(或极小化),而报酬函数是由每一瞬时的报酬在有限范围内或无限范围内通过一定方式聚合而成的.特别是在描述管理与工程中的实际问题时,MDP是一个极其有用的工具.在MDP的英文文献中,已有很多书籍或全面地或部分地阐述了这一领域的方方面面.例如,近期有Hernandez_Lerma(1989年),Puterman(1994年)和Filar&Vrieze…
|