本論文では、オフラインでの協調型マルチエージェント強化学習(MARL)の課題に取り組んでいる。オフラインMARLでは、大規模な状態行動空間と複雑なマルチエージェントの振る舞いが課題となる。
提案手法のComaDICEは以下の特徴を持つ:
定常分布シフト正則化を導入することで、オフラインデータの分布シフトの問題に対処する。これにより、状態行動ペアの外挿誤差を抑制できる。
中央集権的な学習と分散的な実行(CTDE)のフレームワークを採用し、個別エージェントの局所的な正則化を行うことで、大規模な状態行動空間の問題に対処する。
局所的な価値関数と利得関数を適切に分解することで、グローバルな学習目的関数が局所的な価値関数について凸になることを示す。これにより、安定した学習が可能となる。
局所的な方策抽出において、グローバルな方策との整合性を保証する重み付き行動模倣学習を提案する。
実験では、StarCraft IIのマルチエージェントベンチマークSMACv2やマルチエージェントMuJoCoなどの課題で、提案手法ComaDICEが既存手法を大きく上回る性能を示した。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문