Centrala begrepp
協力的マルチエージェント強化学習において、確率的ポリシーを学習する統一フレームワークを提案し、HASACアルゴリズムが優れた性能を示す。
Sammanfattning
この論文では、協力的マルチエージェント強化学習のための統一フレームワークであるMEHARLが提案されています。PGMからMaxEnt MARLを導出し、HASACアルゴリズムは単調な改善とQRE収束特性を持つことが理論的に証明されています。MEHAMLテンプレートも提供され、任意の導出方法に同じ理論的保証を提供します。実験では、HASACは離散および連続制御タスクで優れたパフォーマンスと改善された堅牢性および探索能力を示しています。
Statistik
1e7 Timesteps
2e7 Timesteps
4e7 Timesteps
Citat
"Stochastic policies enable effective exploration of the reward landscape, mastery of multiple ways of performing the task, and robustness when facing prediction errors."
"HASAC consistently outperforms strong baselines, exhibiting better sample efficiency, robustness, and sufficient exploration."
"HASAC achieves over 90% win rates in 7 out of 8 maps and outperforms other strong baselines in most maps."