全部 标题 作者 关键词 摘要
, PP. 1021-1021
Full-Text Cite this paper Add to My Lib
本文所研究的马尔可夫决策规划{S,(A(t),i∈S),q,r,V_s},其中状态空间S、每个状态可用的行动集A(i)(i∈S)均为可列集,转移律q是时齐的,报酬函数r是有界的,折扣目标是V_β(β∈(0,1))。其主要结果如下
Full-Text
Contact Us
service@oalib.com
QQ:3279437679
WhatsApp +8615387084133