Core Concepts
パラメータを共有しない多エージェント強化学習において、エージェントが独立して通信戦略を学習できることを示す。
Abstract
本論文では、パラメータを共有しない多エージェント強化学習(MARL)における通信の課題について検討している。
従来のMARL手法では、エージェントのネットワークパラメータを共有することで通信を実現していた。
しかし、実用的な場面ではパラメータ共有が困難な場合がある。
そこで本論文では、パラメータを共有しないMARL環境でも通信を可能にする新しい学習スキームを提案する。
提案手法では、各エージェントが独立にメッセージを生成・受信するネットワークを持つ。これにより、パラメータ共有がなくても通信戦略を学習できることを示す。
さらに、通信の必要性や、ネットワークの容量がパフォーマンスに与える影響についても分析を行う。
3s_vs_5zやPredatorPreyの環境実験の結果、提案手法によりパラメータ非共有下でも通信が可能であることを確認した。
また、通信は必ずしも必要ではなく、ネットワーク容量を適切に設定することで通信なしでも良好な性能が得られる場合があることも示された。
Stats
3s_vs_5z環境において、パラメータ共有時の最適勝率は1.0である。
PredatorPrey環境では、通信を行わない場合は負の報酬を得るが、通信を行うことで正の報酬を得られる。