この論文では、協力的マルチエージェント強化学習のための統一フレームワークであるMEHARLが提案されています。PGMからMaxEnt MARLを導出し、HASACアルゴリズムは単調な改善とQRE収束特性を持つことが理論的に証明されています。MEHAMLテンプレートも提供され、任意の導出方法に同じ理論的保証を提供します。実験では、HASACは離散および連続制御タスクで優れたパフォーマンスと改善された堅牢性および探索能力を示しています。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jiarong Liu,... pada arxiv.org 03-11-2024
https://arxiv.org/pdf/2306.10715.pdfPertanyaan yang Lebih Dalam