OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

计算机科学 2005

强化学习算法中启发式回报函数的设计及其收敛性分析

魏英姿赵明扬？

Keywords: 强化学习算法启发式回报函数收敛性马尔可夫决策过程机器学习人工智能

Full-Text Cite this paper Add to My Lib

Abstract:

回报函数设计的好与坏对学习系统性能有着重要作用，按回报值在状态-动作空间中的分布情况，将回报函数的构建分为两种形式：密集函数和稀疏函数，分析了密集函数和稀疏函数的特点。提出启发式回报函数的基本设计思路，利用基于保守势函数差分形式的附加回报函数，给学习系统提供更多的启发式信息，并对算法的最优策略不变性和迭代收敛性进行了证明。启发式回报函数能够引导学习，加快学习进程，从而可以实现强化学习在实际大型复杂系统应用中的实时控制和调度。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133