%0 Journal Article %T 一种优先级扫描的Dyna结构优化算法 %A 傅启明 %A 刘 全 %A 肖 飞 %A 高 龙 %A 孙洪坤 %J - %D 2013 %X 不确定环境的时序决策问题是强化学习研究的主要内容之一,age.. %K [强化学习 %K 时序决策 %K 优先级扫描 %K Dyna结构 %K Dyna-PS %K reinforcement learning %K sequential decision making %K prioritized sweeping %K Dyna architecture %K Dyna-PS] %U http://crad.ict.ac.cn/CN/Y2013/V50/I10/2176