OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

通信学报 2013

基于两层模糊划分的在策略时间差分算法

穆翔1,刘全1,2傅启明1,孙洪坤1,周鑫

Full-Text Cite this paper Add to My Lib

Abstract:

？针对传统的基于查询表或函数逼近的q值迭代算法在处理连续空间问题时收敛速度慢、且不易求解连续行为策略的问题，提出了一种基于两层模糊划分的在策略时间差分算法——dfp-optd，并从理论上分析其收敛性。算法中第一层模糊划分作用于状态空间，第二层模糊划分作用于动作空间，并结合两层模糊划分计算出q值函数。根据所得的q值函数，使用梯度下降方法更新模糊规则中的后件参数。将dfp-optd应用于经典强化学习问题中，实验结果表明，该算法有较好的收敛性能，且可以求解连续行为策略。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133