Core Concepts
本論文では、連続空間の平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くための深層強化学習アルゴリズムを提案する。提案手法は、アクター-クリティック(AC)パラダイムと、スコア関数を用いた平均場分布の表現を組み合わせている。アクターとクリティック、および平均場分布は、相互に更新されながら、MFGの均衡解またはMFCの最適解に収束する。
Abstract
本論文の主な内容は以下の通りです:
連続状態・行動空間の平均場問題を統一的に扱うため、アドバンテージ・アクター-クリティック(A2C)アルゴリズムに着想を得た深層強化学習アルゴリズムを提案した。アクターとクリティック、平均場分布の学習率を調整することで、同じアルゴリズムでMFGとMFCの解を得ることができる。
平均場分布を効果的に表現するため、スコア関数(対数密度の勾配)を用いた。スコア関数をニューラルネットワークでパラメータ化し、スコアマッチング手法を用いて更新する。提案手法では、平均場分布とアクター-クリティックを同時に学習する。
数値実験では、線形二次(LQ)平均場問題のベンチマークを用いて、提案手法の性能を評価した。アルゴリズムの収束性と、MFGとMFCの解の違いを確認した。さらに、平均場制御ゲーム(MFCG)への拡張も示した。
Stats
平均場問題の最適コスト関数は、状態変数Xと平均場分布mの二次関数で表される。
最適制御は状態変数Xの一次関数で表される。
Quotes
"本論文では、連続空間の平均場ゲーム(MFG)と平均場制御(MFC)問題を統一的に解くための深層強化学習アルゴリズムを提案する。"
"提案手法は、アクター-クリティック(AC)パラダイムと、スコア関数を用いた平均場分布の表現を組み合わせている。"
"アクターとクリティック、および平均場分布は、相互に更新されながら、MFGの均衡解またはMFCの最適解に収束する。"