Główne pojęcia
MPの有限時間プライマル・デュアルパスとMDGの閉ループナッシュ均衡パスの等価性を確立する。
Streszczenie
I. 概要
MPはプライマル・デュアル学習アルゴリズムで、MDGと関連がある。
本研究では、MPの非均衡挙動をMDGで解析し、均衡収束を示す。
II. 導入
MPは多エージェント学習ダイナミクスであり、MDGと密接な関係がある。
MPダイナミクスは静的単調ゲームにおける有限時間プライマル・デュアルパスと等価。
III. モデリング
モデリング手法や数学的概念に基づいてMPとMDGを結びつける。
MDGの構築にはBrezis-Ekeland変分原理が使用される。
IV. 結論と今後の展望
MPとMDG間の関係を明らかにし、非均衡挙動から均衡収束への道筋を示した。
今後は、確率的場合での非均衡パス特性や学習率・ミラーマップ効果などを探求する。
Statystyki
MPダイナミクスは静的単調ゲームにおける有限時間プライマル・デュアルパスと等価。
MDGでは閉ループ均衡戦略がMP更新量に対応することが証明されている。
Cytaty
"Mirror play (MP) refers to the multi-agent learning dynamics where all agents simultaneously run mirror descent."
"Extensive efforts have been dedicated to MP’s asymptotic behavior and its convergence to equilibrium in games."