全部 标题 作者 关键词 摘要
Keywords: 动态规划,状态集结,随机控制,值函数逼近
Full-Text Cite this paper Add to My Lib
用更为紧凑的方法表示和存贮值函数,以求解大规模平均模型Markov决策规划(MDP)问题。通过状态集结相对值迭代算法逼近值函数,用Span半范数和压缩映原理分析算法的收敛性。给出了状态集结后的Bellman最优方程。在Span压缩条件下了该算法的收敛性,同时还给出了其误差估计。
Full-Text
Contact Us
service@oalib.com
QQ:3279437679
WhatsApp +8615387084133