全部 标题 作者 关键词 摘要
, PP. 533-536
Keywords: 即时差分学习,强化学习,动态规划,MonteCarlo方法
Full-Text Cite this paper Add to My Lib
?考虑平均准则随机动态规划(SDP)问题的一族在线即时差分(TD)学习算法.在学习中,平均问题的相对值函数是控制器所要学习的目标函数.所提出的算法是已有的TD(λ)算法及R-学习算法的一种推广.
Full-Text
Contact Us
service@oalib.com
QQ:3279437679
WhatsApp +8615387084133