المفاهيم الأساسية
本文提出了一種名為「萬花筒」的新型自適應部分參數共享機制,用於提升多智能體強化學習(MARL)的效能,該機制利用可學習掩碼來促進網絡異構性,適用於智能體策略和評論家集成。
本研究旨在解決多智能體強化學習(MARL)中參數共享的困境:完全參數共享導致策略同質化,限制效能;而無參數共享則降低樣本效率,增加訓練成本。
本文提出了一種名為「萬花筒」的新型自適應部分參數共享機制,其核心概念是為每個智能體學習獨特的二元掩碼,以指定共享哪些參數。
主要技術組成部分:
基於軟閾值重新參數化(STR)的可學習掩碼: 使用STR技術為每個智能體學習不同的掩碼,動態調整參數共享程度。
策略多樣性正則化: 引入正則化項,最大化掩碼之間的差異,促進策略異構性。
週期性重置機制: 定期重置持續被掩蓋的參數,防止網絡過度稀疏,並減輕初始偏差。