核心概念
オリゴポリスティックな動的価格環境において、近似ナッシュ均衡を見つける新しいモデルフリー手法が開発されました。
要約
複数のエージェントが競合するマルコフゲーム環境で、厳密なナッシュ均衡が難しいため、近似ナッシュ均衡を見つける新しい方法が提案されました。この手法は、エージェントが単独で方針を変更した場合の最大報酬差ϵを推定し、任意の状態に対するϵ最小化方針も推定します。ニューラルネットワークによってこれらの関係性を表現し、バッチ更新中にNash Q学習を実行して近似ナッシュ均衡を学習します。特に動的価格領域では、厳密な解決策がしばしば扱いづらい中で近似ナッシュ均衡が学習されることが示されました。
統計
ϵ = max E[Πn(xn - d*)] - E[Πn(xn)]
マーケット平均報酬は収束しており、理論的なナッシュ均衡内に収まっています。
エピソードごとの平均報酬値はRLエピソードごとに減少しています。
引用
"An approximate Nash equilibrium can be learned, particularly in the dynamic pricing domain where exact solutions are often intractable."
"We demonstrate that the average reward of all agents converges to an approximate Nash equilibrium."
"The Nash Q learning agents take into account that other agents will compete against them, optimizing accordingly."