핵심 개념
本研究提出了一種名為多智能體 Mamba (MAM) 的新型序列模型架構,用於多智能體強化學習 (MARL),該架構在效率上超越了現有的最先進方法,尤其是在處理多智能體場景時,同時保持了相當的性能水準。
本論文介紹了一種名為多智能體 Mamba (MAM) 的新型序列模型架構,用於解決多智能體強化學習 (MARL) 中的挑戰,特別是在維持良好性能的同時擴展到大量智能體的能力。MAM 基於選擇性狀態空間模型 (SSM) Mamba 構建,旨在克服基於 Transformer 的 MARL 方法(如多智能體 Transformer,MAT)的局限性,後者在處理大量智能體時會遇到計算瓶頸。
MAM 用 Mamba 模塊替換了 MAT 架構中的注意力機制。論文中採用了三種 Mamba 模塊變體:
**Vanilla Mamba 模塊:**用於編碼器中的因果自注意力替換,按順序處理輸入序列。
**雙向 Mamba 模塊:**用於編碼器中的非因果自注意力替換,允許觀察表示編碼來自每個智能體局部視圖的信息。
**交叉注意力 Mamba 模塊 (CrossMamba):**用於解碼器中的因果交叉注意力替換,允許在自回歸動作選擇期間整合來自智能體觀察的信息。