%0 Journal Article
%T 基于后悔值的多agent冲突博弈强化学习模型
%A 肖正？
%A 张世永？
%J 软件学报
%P 2957-2967
%D 2008
%X 对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下agent的后悔值.在该方法下,agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他agent信息的条件下,能够得到nash均衡混合策略.基于后悔值提出了多agent复杂环境下冲突博弈的强化学习模型以及算法实现.该模型中通过引入交叉熵距离建立信念更新过程,进一步优化了冲突博弈时的行为选择策略.基于markov重复博弈模型验证了算法的收敛性,分析了信念与最优策略的关系.此外,与mmdp(multi-agentmarkovdecisionprocess)下q学习扩展算法相比,该算法在很大程度上减少了冲突发生的次数,增强了agent行为的协调性,并且提高了系统的性能,有利于维持系统的稳定.
%K markov对策
%K 强化学习
%K 冲突博弈
%K 冲突消解
%U http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=20081117&flag=1