Kernkonzepte
在多代理強化學習的平均場博弈框架中,引入網路化通訊可以顯著提升去中心化代理的學習效率和系統穩健性,尤其是在沒有預言機且代理只能從單次非片段式經驗系統運行中學習的情況下。
Zusammenfassung
文獻回顧
- 平均場博弈(MFG)框架被用於解決多代理強化學習(MARL)在代理數量增加時面臨的計算可擴展性難題。
- 現有 MFG 演算法的缺點:
- 大多數先前的工作依賴於集中式控制器來協調所有代理的學習。
- 現有方法通常依賴於對現實世界應用而言過於嚴苛的假設。
- 先前的工作主要關注理論樣本保證,而不是實際的收斂速度,並且在很大程度上沒有考慮我們所解決的穩健性問題。
本文貢獻
- 首次將通訊網路引入 MFG 環境,以解決現有方法的缺點。
- 證明了網路化演算法的樣本保證介於集中式和獨立式學習之間。
- 提出了網路結構和通訊輪數與演算法效能之間關係的理論分析。
- 通過引入經驗回放緩衝區等技術,首次實現了三種架構(網路化、集中式和獨立式)從單次連續系統運行中學習的實際演示。
- 實驗結果表明,網路化通訊在收斂速度和系統穩健性方面具有顯著優勢。
演算法設計
- 基於現有的集中式和獨立式學習演算法,本文提出了一種新的網路化學習演算法。
- 在網路化演算法中,代理在去中心化的方式下計算策略更新,然後通過通訊網路與鄰居交換策略。
- 代理根據接收到的策略及其相關價值,選擇採用其中一個策略。
實驗結果
- 在「集群」和「目標一致」兩個任務中,網路化演算法的效能優於獨立式學習,在某些情況下甚至優於集中式學習。
- 網路化演算法在面對學習失敗和代理數量變化時表現出更強的穩健性。
總結
本文提出的網路化通訊方法為解決 MFG 中的去中心化學習問題提供了一種有效且穩健的解決方案。