本研究では、強化学習を用いて単一の修正ポリシーを学習し、それを適用してゲームを修正することで、既存のNash均衡近似手法の性能を向上させる手法REINFORCEMENTNASHEQUILIBRIUMSOLVERを提案した。具体的な貢献は以下の3点:
大規模な通常形ゲームを用いた実験の結果、提案手法REINFORCEMENTNASHEQUILIBRIUMSOLVERは、α-rank、CE、FP、PRDなどの既存の近似手法の性能を向上させることができ、さらに未知のゲームにも適用可能であることが示された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Xinrun Wang,... kl. arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03518.pdfDybere Forespørgsler