Grunnleggende konsepter
本研究は、大規模集団ゲームの近似ナッシュ均衡を求めるための、占有率測度を用いたオンラインの平均場強化学習アルゴリズムを提案する。このアルゴリズムは、ラズリ-リオンズの単調性条件を満たすゲームに対して、高確率レグレット界限付きで収束することを示す。
Sammendrag
本研究は、大規模集団ゲームの近似ナッシュ均衡を求めるための新しいアプローチを提案している。
まず、ゲームの平均場モデルにおいて、ナッシュ均衡を占有率測度を用いた包含問題として定式化する(MF-OMI)。この問題は、報酬関数の単調性に基づいて解くことができる。
次に、この包含問題をフォワード-バックワード分割法(FBS)を用いて解くアルゴリズム(MF-OMI-FBS)を提案する。このアルゴリズムは、占有率測度の一致性を保つ凸二次計画問題を解くことで実装される。
最後に、MF-OMI-FBSアルゴリズムをオンラインの強化学習設定に拡張し、MF-OML(Mean-Field-Occupation Measure Learning)アルゴリズムを提案する。MF-OMLは、一部のエージェントを完全探索させつつ、残りのエージェントはMF-OMI-FBSに基づく方策を使うことで、探索-活用のトレードオフを扱う。このアルゴリズムは、ラズリ-リオンズの単調性条件を満たすゲームに対して、高確率レグレット界限付きで収束することが示される。
Statistikk
大規模集団ゲームにおいて、ナッシュ均衡からの偏差の累積値は、強いラズリ-リオンズ単調性条件の下で、高確率レグレット界限 O(M^3/4 + N^(-1/2)M)を達成する。
ラズリ-リオンズ単調性条件のみを満たす場合、高確率レグレット界限 O(M^(11/12) + N^(-1/6)M)を達成する。
Sitater
"本研究は、大規模集団ゲームの近似ナッシュ均衡を求めるための新しいアプローチを提案している。"
"MF-OMLは、探索-活用のトレードオフを扱うことができる。"