Core Concepts
他のエージェントの重要な経験を選択的に共有することで、各エージェントの学習を促進できる。
Abstract
本論文では、多エージェント強化学習のための新しいアプローチ「Selective Multi-Agent Prioritized Experience Relay (SUPER)」を提案している。SUPERでは、各エージェントが独立して学習を行うが、他のエージェントに対して自身の最も重要な経験を限定的に共有する。この経験共有は、優先度に基づいて行われ、選択的であるため、通信チャネルの帯域幅を小さく抑えることができる。
実験の結果、SUPERはベースラインの独立学習アルゴリズムと比べて、多くのベンチマーク環境で学習効率と最終性能が大幅に向上することが示された。また、完全な中央集権型の学習アプローチと比べても遜色ない性能を発揮した。この選択的な経験共有のアプローチは、DQNやDDQNなどの既存のアルゴリズムに適用可能であり、汎用性が高い。
Stats
追跡環境(Pursuit)では、ベースラインのDDQNと比べて、SUPERの最終性能が2倍以上向上した(181.4 vs 454.5)。
戦闘環境(Battle)では、ベースラインのDDQNと比べて、共有チームの性能が中間段階で大幅に向上した(-19.0 vs 5.5)。
敵対的追跡環境(Adversarial Pursuit)でも、同様に共有チームの性能が向上した(-719.8 vs -506.3)。
Quotes
"我々は、エージェントが観察した経験の一部のみを他のエージェントと選択的に共有する新しい多エージェントRLアプローチを提案する。この直感は、他のエージェントから少数の関連する経験でも共有すれば、各エージェントの学習を助けることができるというものである。"
"我々のアプローチは、中央集権型の学習とは対照的に、限られた通信チャネルを持つ(半)分散型の学習を可能にする。"