本研究では、多エージェントシステムにおける独立自然方策勾配(NPG)アルゴリズムを検討している。各エージェントは自身の報酬を最大化するためにNPGを用いて方策を更新する。報酬にはエントロピー正則化項が加えられており、これにより各エージェントの合理性が制限される。
理論的な分析では、十分に大きなエントロピー正則化係数の下で、システムが量子応答均衡に線形収束することを示した。正則化係数が小さすぎると、システムは収束しない可能性がある一方で、正則化係数が大きすぎると、得られる均衡が合理的すぎなくなる。したがって、収束速度と合理性のバランスを取るためには、適切な正則化係数を選択することが重要である。
実験では、ランダムに生成された報酬ゲーム、ネットワーク零和ゲーム、マルコフゲームなどを用いて、理論的な結果を検証した。これらの実験結果は、理論的な分析を支持するものであった。
翻譯成其他語言
從原文內容
arxiv.org
深入探究