%0 Journal Article %T 贝叶斯学习与强化学习结合技术的研究 %J 计算机科学 %D 2006 %X 强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使agent可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单agent贝叶斯强化学习方法和多agent贝叶斯强化学习方法:单agent贝叶斯强化学习包括贝叶斯q学习、贝叶斯模型学习以及贝叶斯动态规划等;多agent贝叶斯强化学习包括贝叶斯模仿模型、 %K 贝叶斯学习强化学习单agent多agent %U http://www.jsjkx.com/jsjkx/ch/reader/view_abstract.aspx?file_no=21313540&flag=1