핵심 개념
本文提出了一種基於噪聲分佈分解的多智能體分佈式強化學習方法 (NDD),通過將全局共享的噪聲獎勵近似為高斯混合模型 (GMM) 並將其分解為單獨的局部獎勵分佈,從而減輕噪聲對多智能體強化學習性能的影響,並提高學習效率和穩定性。
초록
論文概述
本論文提出了一種名為噪聲分佈分解 (NDD) 的新型多智能體強化學習方法,旨在解決噪聲環境下多智能體協作學習的挑戰。
研究背景
在多智能體強化學習 (MARL) 中,智能體通過與環境交互並根據接收到的獎勵來學習策略。然而,環境噪聲,例如傳感器產生的電子噪聲或外部因素的影響,會顯著影響智能體的學習效果。
研究方法
NDD 方法結合了分佈式強化學習和價值分解的思想。具體而言,NDD 使用高斯混合模型 (GMM) 來近似全局共享的噪聲獎勵,並將其分解為單獨的局部獎勵分佈。每個智能體可以使用分佈式強化學習方法根據其局部獎勵分佈進行更新。此外,NDD 還利用擴散模型 (DM) 來生成獎勵,以減少學習分佈所需的交互成本。
主要貢獻
本論文的主要貢獻包括:
- 提出了 NDD 方法,該方法結合了分佈式強化學習和價值分解,以減輕噪聲對多智能體學習的影響。
- 將分佈式強化學習擴展到多智能體領域,並引入了失真風險函數,允許智能體根據不同的風險偏好調整其策略。
- 設計了一個基於 Wasserstein 度量的損失函數,以學習與每個智能體相對應的準確分佈,並從理論上證明了全局最優動作和局部最優動作之間的一致性。
- 引入 DM 來增強緩衝區數據,以減輕數據稀疏性問題,並分析了生成和近似誤差。
實驗結果
在 Multi-agent Particle world Environments (MPE) 和 StarCraft Multi-Agent Challenge (SMAC) 環境中進行的實驗表明,NDD 方法在噪聲環境下優於現有的多智能體強化學習方法。
總結
NDD 方法為解決噪聲環境下的多智能體協作學習問題提供了一種有效且穩定的解決方案。
통계
在 MPE 和 SMAC 環境中添加了 5 種類型的噪聲(噪聲 0 到噪聲 5)來模擬真實世界的噪聲環境。
每種方法在 MPE 中的每個任務都訓練了 3,000 次迭代,在 SMAC 中的每個任務都訓練了 2 × 10^4 次迭代。
인용구
"Nevertheless, environmental noise widely exists in practice due to internal and external factors (e.g., electronic noise from sensors, the influences of temperature, pressure, and illumination) [13], and most RL algorithms are vulnerable in noisy scenarios with unstable performance [14]."
"In this paper, we propose the Noise Distribution Decomposition (NDD) MARL method, wherein the ideas of distributional RL and value decomposition are jointly leveraged to ameliorate the flexibility of distributed agents to noisy rewards."