核心概念
マルチエージェント強化学習において、エージェント間の効率的なコラボレーションを実現するために、エージェント間の相互作用をグラフとしてモデル化し、因子ベースのマルチエージェントトランスフォーマー(f-MAT)を用いることで、従来の手法よりも優れた性能と学習効率を実現できる。
摘要
マルチエージェント強化学習における効率的なコラボレーションに向けて
この研究論文は、マルチエージェント強化学習(MARL)における、エージェント間の効率的なコラボレーションを実現するための新しい手法を提案しています。
従来のMARL手法、特に集中学習と分散実行(CTDE)を用いる手法は、エージェント間の関係を十分にモデル化できておらず、分散実行時に協調的な行動が難しいという課題がありました。
この論文では、エージェント間の相互作用をグラフとしてモデル化し、因子ベースのマルチエージェントトランスフォーマー(f-MAT)を用いることで、この課題を解決する新しいエンコーダ・デコーダアーキテクチャを提案しています。
因子表現
f-MATは、エージェントを異なるグループに分割し、各グループを仮想的なハイパーノードである「因子」で表現します。これにより、グループレベルでのコミュニケーションが可能となり、より広範なメッセージパッシングを実現します。
因子ベースの注意機構
f-MATは、因子とトランスフォーマーのマルチヘッド注意機構(MHA)を組み合わせた因子ベースの注意機構を用いることで、効率的なメッセージパッシングを実現します。この機構では、各因子は接続されたノード(エージェント)のみに、各ノードは接続された因子のみに注意を払うようにマスクが適用されます。
エンコーダとデコーダの実装
f-MATのエンコーダは、従来のトランスフォーマーとは異なり、因子ベースのマスクを適用することで、局所的なメッセージパッシングを実現し、ポリシーが入力として結合/グローバルな観測ではなく、局所的な観測を取得できるようにします。
デコーダも因子ベースの注意機構で構成されており、従来のデコーダと同様に学習されます。ただし、f-MATは、従来のトランスフォーマーの自己回帰的な生成とは異なり、並列生成を可能にすることで、推論時の計算時間を大幅に短縮しています。