摘 要: | 交通网中,最大化车流量和最小化平均等待时间是每一个路口调度的目标.交通调度中,各路口与其它路口发生博弈关系.博弈过程中,相邻路口之间为使其自身利益最大化而存在一种策略间相互协调的约束.针对复杂的交通调度控制问题,基于多智能体多阶段博弈论对交通系统进行建模.考虑动态博弈交通环境的实际特征,进一步基于博弈的增强学习算法,提出一种以惩机制为约束条件的交通系统博弈策略的学习方法,最终使参与交通博弈的多个路口达到Nash均衡,从而得到交通系统的最优配时调度策略组合.实验验证了所提出方法的可行性和有效性.
|