OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

软件学报 2013

一种基于自生成样本学习的奖赏塑形方法

DOI: 10.3724/SP.J.1001.2013.04471, PP. 2667-2675

钱煜？,俞扬？,周志华？

Keywords: 奖赏塑形,自生成样本,策略不变,强化学习

Full-Text Cite this paper Add to My Lib

Abstract:

强化学习通过从以往的决策反馈中学习,使agent做出正确的短期决策,以最大化其获得的累积奖赏值.以往研究发现,奖赏塑形方法通过提供简单、易学的奖赏替代函数(即奖赏塑性函数)来替换真实的环境奖赏,能够有效地提高强化学习性能.然而奖赏塑形函数通常是在领域知识或者最优策略示例的基础上建立的,均需要专家参与,代价高昂.研究是否可以在强化学习过程中自动地学习有效的奖赏塑形函数.通常,强化学习算法在学习过程中会采集大量样本.这些样本虽然有很多是失败的尝试,但对构造奖赏塑形函数可能提供有用信息.提出了针对奖赏塑形的新型最优策略不变条件,并在此基础上提出了rfpotential方法,从自生成样本中学习奖赏塑形.在多个强化学习算法和问题上进行了实验,其结果表明,该方法可以加速强化学习过程.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133