全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...
通信学报  2013 

基于自适应势函数塑造奖赏机制的梯度下降sarsa(λ)算法

Full-Text   Cite this paper   Add to My Lib

Abstract:

?针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(rbf)网络的优良性能及存在的问题,提出利用自适应归一化rbf(anrbf)网络作为势函数来塑造奖赏。基于anrbf网络提出了梯度下降(gd)版的强化学习算法——anrbf-gd-sarsa(λ)。从理论上分析了anrbf-gd-sarsa(λ)算法的收敛性,并通过实验验证了anrbf-gd-sarsa(λ)算法具有较好的初始性能及收敛速度。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133