本研究では、情報指向サンプリング(IDS)の原理に基づいた新しいアルゴリズムを提案し、その理論的な性能を分析しています。
具体的には以下の内容が含まれています:
2人ゼロ和マルコフゲームにおいて、ナッシュ均衡を学習するための3つのサンプル効率的なアルゴリズムを提案しました。基本的なアルゴリズムであるMAIDSでは、最大プレイヤーが共同情報比を最小化し、最小プレイヤーが限界情報比を最小化するという非対称的な学習構造を採用しています。理論分析により、K回のエピソードに対してベイズ後悔が ˜
O(√K)のオーダーに抑えられることを示しました。
計算量を削減したReg-MAIDSアルゴリズムを提案しました。Reg-MAIDSはMAIDSと同じベイズ後悔界を持ちつつ、計算量が低減されています。
学習対象をコンプレッシュド環境に設定したCompressed-MAIDSアルゴリズムを提案しました。情報理論のレート歪理論に着想を得て、2つの圧縮原理に基づいてコンプレッシュド環境を構築し、その上でIDSベースのアルゴリズムを設計しました。
Reg-MAIDSアルゴリズムを多プレイヤー一般和マルコフゲームに拡張し、ナッシュ均衡またはコース相関均衡を効率的に学習できることを示しました。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문