Centrala begrepp
ゲームの修正を通じて、既存のNash均衡近似手法の性能を向上させることができる。
Sammanfattning
本研究では、強化学習を用いて単一の修正ポリシーを学習し、それを適用してゲームを修正することで、既存のNash均衡近似手法の性能を向上させる手法REINFORCEMENTNASHEQUILIBRIUMSOLVERを提案した。具体的な貢献は以下の3点:
- α-rank応答グラフを用いてゲームを表現し、グラフニューラルネットワークを使ってゲームのサイズが異なる場合にも対応できるようにした。
- テンソル分解を用いて、ゲームのサイズが異なる場合でも修正アクションの次元数を固定できるようにした。
- 一般的に使われているプロキシマル方策最適化(PPO)を用いて修正ポリシーを学習し、学習した修正ポリシーを適用してゲームを修正し、その上で既存の近似手法を適用して解を得た。
大規模な通常形ゲームを用いた実験の結果、提案手法REINFORCEMENTNASHEQUILIBRIUMSOLVERは、α-rank、CE、FP、PRDなどの既存の近似手法の性能を向上させることができ、さらに未知のゲームにも適用可能であることが示された。
Statistik
修正前のゲームのNashConv値は0.180であった。
修正後のゲームのNashConv値は0.313まで改善された。
Citat
"ゲームの修正を通じて、既存のNash均衡近似手法の性能を向上させることができる。"
"提案手法REINFORCEMENTNASHEQUILIBRIUMSOLVERは、α-rank、CE、FP、PRDなどの既存の近似手法の性能を向上させることができ、さらに未知のゲームにも適用可能である。"