%0 Journal Article %T 基于meta平衡的多agentq学习算法研究 %A 王万良 %A 艘约庆 %A 赵燕伟? %J 计算机科学 %D 2012 %X 多agent强化学习算法的研究一直以来大多都是针对于合作策略,而nashq算法的提出对非合作策略的研究无疑是一个重要贡献。针对在多agent系统中,nash平衡无法确保求得的解是paret。最优解及其计算复杂度较高的问题,提出了基于mcta平衡的mctaq算法。与nashq算法不同,mctaq算法通过对自身行为的预处理以及对其它agent行为的预测来获取共同行为的最优策略。最后通过研究及气候合作策略游戏实验,证明了mctaq算法在解决非合作策略的问题中有着很好的理论解释和实验性能。 %K 强化学习 %K meta平衡 %K nashq %K 多agent系统 %U http://www.jsjkx.com/jsjkx/ch/reader/view_abstract.aspx?file_no=1200674&flag=1