本研究は、交通信号灯制御の課題に取り組むために、多エージェント強化学習フレームワークを提案している。主な特徴は以下の通りである:
有向ハイパーグラフモジュールの導入: 交差点間の複雑な時空間相関を捉えるために、動的に有向ハイパーグラフを構築する。ヘッドノードセットとテールノードセットを用いて、複数のノード間の高次の相関関係をモデル化する。
多エージェントProximal Policy Optimization (MA-PPO): 各交差点に配置されたエージェントが協調的に最適な信号灯切り替え戦略を学習する。PPOアルゴリズムの単純かつ効果的なクリッピング機構により、学習中の大幅なポリシー変更を抑制する。
実験評価: 実世界の道路ネットワークデータセットを用いて、提案手法の有効性を検証する。平均旅行時間と通過量の指標において、提案手法が既存手法を上回る性能を示す。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Kang Wang, Z... ב- arxiv.org 09-10-2024
https://arxiv.org/pdf/2409.05037.pdfשאלות מעמיקות