本論文では、一般和マルコフ・ゲームにおける分散型学習アルゴリズムの設計と分析を行っている。
まず、マルコフ近似ポテンシャル関数(MNPF)という新しい概念を導入し、これがナッシュ均衡の近似を捉えるのに重要な役割を果たすことを示す。
次に、アクター・クリティック型の分散型学習アルゴリズムを提案し、MNPFを用いて、このアルゴリズムが近似ナッシュ均衡に収束することを理論的に証明する。具体的には、二時間スケールのアプローチを用いて、Q関数の推定が速く、方策の更新が遅いという設計により、システムがMNPFの水準集合に収束することを示す。
さらに、ナッシュ均衡が有限個であると仮定すると、アルゴリズムの軌道が単一の均衡点の近傍に収束することも示される。
以上の結果は、マルチエージェントシステムにおける分散型学習アルゴリズムの分析と設計に新しい視点を提供するものである。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Chinmay Mahe... في arxiv.org 09-10-2024
https://arxiv.org/pdf/2409.04613.pdfاستفسارات أعمق