%0 Journal Article %T 基于Q学习算法和BP神经网络的倒立摆控制 %A 蒋国飞 %A 吴沧浦 %J 自动化学报 %P 662-666 %D 1998 %X ?Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2]的AHC(AdaptiveHeuristicCritic)等方法相比,具有更好的学习效果. %K Q学习 %K BP网络 %K 学习控制 %K 倒立摆系统 %K 高斯噪声 %U http://www.aas.net.cn/CN/abstract/abstract16778.shtml