%0 Journal Article %T 平均排队长度差最小的单交叉口在线Q学习模型 %A 卢守峰 %A 张术 %A 刘喜敏 %J 公路交通科技 %P 116-122 %D 2014 %X 为改善交叉口排队长度管理,避免交叉口某个方向排队长度过长,采用强化学习理论建立了以平均排队长度差最小为优化目标的在线Q学习模型。针对控制性能指标相对于邻近的配时方案不敏感的特点,提出了以平均排队长度差作为基本单位重新构造奖励函数,目的是拉大各行为对应的Q值差距,提高模型的收敛速度和鲁棒性。集成ExcelVBA,Vissim,Matlab建立了在线仿真平台,作为计算环境对算例进行了计算。算例中利用GPS数据对Vissim软件中车辆加减速度曲线进行了标定。计算结果表明以平均排队长度差作为优化目标能够提高各个方向排队长度的平衡性,优化整个交叉口的时空资源;建立的在线Q模型具有学习能力和较快的计算速度,模型能否收敛受到周期取值和可选行为数量的影响。 %K 交通工程 %K 在线Q学习 %K 配时优化 %K 排队长度 %U http://manu12.magtech.com.cn/Jweb_gljtkj/CN/abstract/abstract10116.shtml