Core Concepts
大規模近傍探索(MARL-LNS)フレームワークを提案し、既存の深層MARL手法を低レベルアルゴリズムとして使用することで、訓練時間を大幅に短縮しつつ同等の性能を達成する。
Abstract
本論文では、協力型マルチエージェント強化学習(MARL)の効率的な訓練を目的として、大規模近傍探索(MARL-LNS)と呼ばれる新しいフレームワークを提案している。
MARL-LNSでは、訓練時に一度に全てのエージェントを使用するのではなく、一部のエージェントのみを選択して訓練を行う。具体的には、以下のようなプロセスを繰り返す:
訓練に使用するエージェントのサブセット(近傍)を選択する
選択した近傍のエージェントのみを使ってデータを収集し、既存の深層MARL手法(本論文ではMAPPOを使用)で更新を行う
次の近傍を選択し、2.のプロセスを繰り返す
このように、一度に全てのエージェントを使わずに部分的に訓練を行うことで、総訓練時間を大幅に短縮できる。
提案手法には3つのバリアントが含まれる:
ランダム大規模近傍探索(RLNS): 近傍をランダムに選択
バッチ大規模近傍探索(BLNS): 固定の順序で近傍を選択
アダプティブ大規模近傍探索(ALNS): 近傍サイズを徐々に増加させる
これらの手法は、既存の深層MARL手法に簡単に統合でき、追加のパラメータを必要としない。
理論的な分析から、MARL-LNSは低レベルアルゴリズムと同等の収束保証を持つことが示される。また、StarCraft Multi-Agent Challenge(SMAC)とGoogle Research Football(GRF)の実験結果では、提案手法が既存手法と同等の性能を達成しつつ、訓練時間を10%以上短縮できることが確認された。
Stats
提案手法は、MAPPO ベースラインと比較して、SMAC環境で5~25%、GRF環境で14~25%の総訓練時間の短縮を達成した。
SMAC環境の5mvs6mシナリオでは、提案手法の最終勝率が96.9%と、ベースラインの89.1%を大きく上回った。
Quotes
"大規模近傍探索は、組合せ最適化問題やマルチエージェントパス探索の分野で広く使われている人気のメタヒューリスティックである。"
"提案手法は、既存の深層MARL手法に簡単に統合でき、追加のパラメータを必要としない。"