Core Concepts
外生的システムの動的な安定化を保証するためのインセンティブ設計手法を提案する。学習エージェントの戦略選択を通じて外生的システムの状態を制御し、望ましい均衡点に収束させることができる。
Abstract
本研究では、多数の学習エージェントが共通の戦略集合から非協力的に戦略を選択し、外生的システム(ES)の動態に影響を与える状況を考える。ESを所望の均衡点に安定化させるため、予算内で特定の戦略に対するインセンティブを提供する動的な報酬メカニズムを設計する。
システム理論のパッシビティ概念を活用し、ESの均衡点を大域的に漸近的に安定化できる条件を明らかにする。従来の流行病人口ゲームに関する研究と比較して、より現実的な流行病モデルや捕食-被食系のような他のタイプのESにも適用可能である。リアプノフ関数を用いることで、過渡応答に関する有用な上界も得られる。
Stats
外生的システムの状態方程式は、y(t)の関数としてf(y(t); x(t))で表される。
報酬ベクトルr(t)は、q(t)の関数としてH(y(t), x(t), q(t))で表される。
報酬ダイナミクスは、q(t)の関数としてG(y(t), x(t), q(t))で表される。
Quotes
"我々は、多数の学習エージェントが共通の戦略集合から非協力的に戦略を選択し、外生的システム(ES)の動態に影響を与える状況を考える。"
"ESを所望の均衡点に安定化させるため、予算内で特定の戦略に対するインセンティブを提供する動的な報酬メカニズムを設計する。"
"システム理論のパッシビティ概念を活用し、ESの均衡点を大域的に漸近的に安定化できる条件を明らかにする。"