全部 标题 作者 关键词 摘要
, PP. 1193-1193
Full-Text Cite this paper Add to My Lib
本文讨论的平均模型为{S,(A(i),i∈S),q,r,(?)/(?)},其中状态空间S与每个行动集A(i)均为非空可数集;q为平稳的状态一步转移概率簇;r为报酬函数,一致有界。设Π、Π_s~d分别表示一般策略类和平稳策略类。
Full-Text
Contact Us
service@oalib.com
QQ:3279437679
WhatsApp +8615387084133