%0 Journal Article %T 基于两层模糊划分的在策略时间差分算法 %A 穆翔1 %A 刘全1 %A 2傅启明1 %A 孙洪坤1 %A 周鑫 %J 通信学报 %D 2013 %X ?针对传统的基于查询表或函数逼近的q值迭代算法在处理连续空间问题时收敛速度慢、且不易求解连续行为策略的问题,提出了一种基于两层模糊划分的在策略时间差分算法——dfp-optd,并从理论上分析其收敛性。算法中第一层模糊划分作用于状态空间,第二层模糊划分作用于动作空间,并结合两层模糊划分计算出q值函数。根据所得的q值函数,使用梯度下降方法更新模糊规则中的后件参数。将dfp-optd应用于经典强化学习问题中,实验结果表明,该算法有较好的收敛性能,且可以求解连续行为策略。 %U http://www.joconline.com.cn/CN/abstract/abstract148333.shtml