全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...
通信学报  2013 

基于优先级扫描dyna结构的贝叶斯q学习方法

Full-Text   Cite this paper   Add to My Lib

Abstract:

?贝叶斯q学习方法使用概率分布来描述q值的不确定性,并结合q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描dyna结构的贝叶斯q学习方法—dyna-ps-bayesql。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将dyna-ps-bayesql应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133