BAMAX 是一種利用回溯機制增強多智能體協作探索效率的強化學習方法,實驗證明其在不同大小的六邊形網格環境中均優於傳統算法。
本文提出了一種基於強化學習的去中心化多智能體牧羊人控制策略,該策略無需依賴目標群體的凝聚力假設,並能使牧羊人智能體在沒有明確協調機制的情況下,通過學習自主地選擇和引導目標,實現高效合作,完成群體牧羊任務。
本文提出了一種基於噪聲分佈分解的多智能體分佈式強化學習方法 (NDD),通過將全局共享的噪聲獎勵近似為高斯混合模型 (GMM) 並將其分解為單獨的局部獎勵分佈,從而減輕噪聲對多智能體強化學習性能的影響,並提高學習效率和穩定性。
本文提出了一種新穎的多層級通訊方案 SeqComm,用於解決多智能體協調問題,該方案允許智能體通過協商決策順序並根據實際行動進行調整來實現顯式協調。
本研究提出了一種名為多智能體 Mamba (MAM) 的新型序列模型架構,用於多智能體強化學習 (MARL),該架構在效率上超越了現有的最先進方法,尤其是在處理多智能體場景時,同時保持了相當的性能水準。
本文提出了一種名為利他梯度調整(AgA)的新型優化方法,通過梯度調整來逐步協調個體和集體目標,並在理論和實證上驗證了其有效性。
本文提出了一種基於譜表徵的網絡多智能體強化學習算法,該算法可以有效地學習局部Q函數,並通過策略梯度方法找到最優策略,解決了傳統方法在網絡規模和狀態-動作空間增大時面臨的可擴展性問題。
本文提出了一種名為「萬花筒」的新型自適應部分參數共享機制,用於提升多智能體強化學習(MARL)的效能,該機制利用可學習掩碼來促進網絡異構性,適用於智能體策略和評論家集成。
本文提出了一種新的安全多智能體強化學習方法,用於機器人團隊的協作導航,該方法無需為每個機器人設定個別目標位置,而是僅依靠隊形的中心點作為參考目標,並結合基於模型預測控制的安全機制,成功地在模擬和真實機器人實驗中實現了零碰撞的協作導航。
YOLO-MARL 框架利用大型語言模型(LLM)的高級任務規劃能力來增強多智能體強化學習(MARL)策略訓練,通過僅需與 LLM 進行一次交互即可生成規劃函數,從而減少計算開銷並提高訓練效率。