提案手法X-Lightは、複数の信号機の協調と都市間の汎化性を同時に実現するTransformer on Transformerモデルである。Lower Transformerは信号機とその近隣の観測、行動、報酬の関係を学習し、Upper Transformerは複数都市の履歴情報から一般的な意思決定プロセスを学習する。これにより、新しい都市への適用時にも優れた性能を発揮する。
メタ強化学習では、事前に与えられた学習タスクから新しいタスクを効率的に解決する方法を学習する。本研究では、学習タスクの分布を密度推定の手法を用いて直接推定し、その推定分布に基づいて最適な方策を学習する手法を提案する。
RL3は、メタ強化学習とトラディショナルな強化学習の長所を組み合わせることで、データ効率的な学習、長期的な性能向上、およびタスク外分布への一般化を実現する。