Core Concepts
提出了MTLIGHT,一种用于交通信号灯控制的高效多任务强化学习方法。MTLIGHT通过学习任务共享和任务特定的潜在状态,以增强代理的观察,从而适应复杂的多智能体城市道路网络环境。
Abstract
本文提出了MTLIGHT,一种用于交通信号灯控制的高效多任务强化学习方法。
首先,MTLIGHT的原始观察包括每个路口的车辆数量和当前信号相位。为了提供更好的表示,MTLIGHT引入了潜在状态,该潜在状态由多任务网络学习而来。具体来说,多任务网络包括以下四个任务:
流量分布估计:预测从开始到当前时间步的平均流量和方差。
旅行时间分布估计:预测从开始到当前时间步已完成行程车辆的平均旅行时间和方差。
下一时间步队长预测:预测下一时间步的平均队长。
道路上车辆数预测:预测当前系统中存在的车辆数。
这些辅助任务有助于学习任务共享的潜在状态,该状态反映了与多个相关任务相关的先验信息。此外,还学习了任务特定的潜在状态,该状态与最新的变化趋势保持一致。这两种潜在状态都被用来增强原始观察,并输入到策略网络中。
实验结果表明,与其他方法相比,MTLIGHT在不同城市和流量配置下都表现出更快的收敛速度和更好的渐进性能。这证明了引入任务共享和任务特定潜在状态的有效性,可以帮助代理适应复杂的多智能体环境。
Stats
从开始到当前时间步的平均流量为μf,方差为σ2
f。
从开始到当前时间步已完成行程车辆的平均旅行时间为μtr,方差为σ2
tr。
下一时间步的平均队长为q。
当前系统中存在的车辆数为V r。