本稿では、マルチエージェント強化学習(MARL)におけるエージェント間のコミュニケーション効率を向上させる新しい手法「CommFormer」が提案されています。従来手法では、全エージェント間で情報を共有したり、事前に定義されたコミュニケーション構造を用いることが一般的でしたが、エージェント数が増加すると非効率性や柔軟性の欠如が課題となっていました。
CommFormerは、エージェント間のコミュニケーション構造を学習可能なグラフとして捉え、以下の3つの要素を学習することで、効率的かつ効果的なコミュニケーションを実現します。
従来手法では、固定的なコミュニケーション構造を用いるか、全エージェント間の通信を仮定していました。一方、CommFormerは、エージェントをノード、エージェント間の通信関係をエッジとして表現するグラフを用い、どのエージェントと通信するかを学習します。具体的には、エッジの接続関係を表す隣接行列を学習可能なパラメータとして扱い、勾配降下法を用いて最適化を行います。これにより、タスクや環境に適応した効率的なコミュニケーション構造を自動的に獲得することができます。
多くの場合、全ての意思決定においてエージェント間で情報を共有する必要はなく、重要な意思決定時のみ情報共有を行う方が効率的です。CommFormerは、いつ通信するかを動的に決定するために、各エージェントにゲーティングネットワークを導入しています。このネットワークは、現在の観測情報に基づいて、他のエージェントと情報を共有する必要があるかどうかを判断します。これにより、不要な通信を削減し、コミュニケーションの効率を向上させています。
CommFormerは、グラフモデリングの枠組みの中で注意機構を採用し、受信したメッセージに対して動的に重要度を割り当てます。これにより、各エージェントは、他のエージェントから受信した情報のうち、自身の意思決定に関連性の高い情報に重点的に注意を払うことができます。
CommFormerは、集中学習と分散実行のパラダイムを採用しています。学習段階では、エージェント間で制限なく通信を行い、コミュニケーショングラフとゲーティングネットワークのパラメータを最適化します。実行段階では、学習したコミュニケーショングラフとゲーティングネットワークを用いて、各エージェントが独立して行動を選択します。
提案手法をPredator-Prey、Predator-Capture-Prey、StarCraft II、Google Research Footballといった様々なマルチエージェントタスクを用いて評価した結果、従来手法と比較して優れた性能を示しました。特に、エージェント数が多いタスクや、部分観測環境下でのタスクにおいて、その効果が顕著に現れました。
本稿で提案されたCommFormerは、グラフモデリングを用いることで、マルチエージェントシステムにおけるコミュニケーション効率を大幅に向上させる可能性を示しました。これは、複雑な協調タスクを解決するための重要な一歩と言えるでしょう。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問