Concetti Chiave
一般形式ゲームにおいて、任意の初期戦略プロファイルから有限長の満足化経路を構築することができ、その経路は必ず均衡戦略プロファイルで終了する。
Sintesi
本論文では、一般形式ゲームにおいて、任意の初期戦略プロファイルから有限長の満足化経路を構築できることを示した。
満足化経路とは、以下の性質を持つ戦略プロファイルの系列である:
プレイヤーiの現在の戦略xiがベストレスポンスである場合、次期の戦略xi+1はxiと同じである
プレイヤーiの現在の戦略xiがベストレスポンスでない場合、次期の戦略xi+1はどのようにでも選択できる
このような満足化経路は、多数のマルチエージェント強化学習アルゴリズムにおいて自然に現れる。本論文の主結果は、任意の一般形式ゲームにおいて、初期戦略プロファイルから有限長の満足化経路を構築でき、その経路は必ず均衡戦略プロファイルで終了することを示したものである。
この結果は、満足化経路を活用したマルチエージェント強化学習アルゴリズムが、より広範なクラスのゲームにおいて均衡への収束を保証できることを示唆している。
Statistiche
ゲームの参加者数nは有限である。
戦略プロファイルの集合Xは有限集合の直積である。
ベストレスポンス集合BRi_0(x^-i)は非空である。
Citazioni
"任意の一般形式ゲームΓと初期戦略プロファイルx^1に対して、x^1から有限長の満足化経路を構築し、その経路が均衡戦略プロファイルで終了することができる。"