核心概念
この論文では、モデル情報が未知の2人プレイヤーゼロサムマルコフゲームにおいて、ゲーム理論的に最適な値に確率1で収束する、新しい多段階ミニマックスQ学習アルゴリズムを提案しています。
摘要
2人プレイヤーゼロサムマルコフゲームのための多段階ミニマックスQ学習アルゴリズム:論文要約
この研究論文では、モデル情報が未知の2人プレイヤーゼロサムマルコフゲーム(TZMG)においてナッシュ均衡を求めるための新しい多段階ミニマックスQ学習(MMQL)アルゴリズムを提案しています。
従来の単一ステップ強化学習アルゴリズムを拡張し、TZMG における多段階強化学習アルゴリズムの開発と評価を行う。
提案アルゴリズムの収束性を理論的に証明し、その有効性を数値実験を通じて検証する。
既存のミニマックスQ学習アルゴリズムを拡張し、複数ステップ先のリワードを考慮した更新規則を導入。
確率近似理論を用いて、提案アルゴリズムの収束性を証明。
提案アルゴリズムを、古典的なミニマックスQ学習、一般化最適ミニマックスQ学習、一般化ミニマックスQ学習などの既存アルゴリズムと比較する数値実験を実施。