Core Concepts
二つのエージェントが個別に学習し、報酬が完全に一致しない場合、Stackelbergゲームでの分散学習の影響を評価する。
Abstract
この論文は、二つのエージェントが個別に学習し、報酬が完全に一致しない場合のStackelbergゲームでの分散学習ダイナミクスと各エージェント目的への影響を調査しています。通常の後悔基準では最悪ケースで少なくとも1人のプレイヤーに対して線形後悔をもたらすことが示されています。新しい後悔基準を導入し、小さな学習エラーに寛容なリラックスした後悔基準を構築しています。通常の学習アルゴリズムは予測後悔を提供せず、両プレイヤーに対してO(T^2/3)後悔を達成するアルゴリズムを開発しています。また、より速い学習(O(√T))が可能なリラックスした環境も設計しています。これらの結果は、二つのエージェント間相互作用がどれだけ効用に影響するかを評価する一歩です。
Stats
標準的な後悔基準では最悪ケースで少なくとも1人のプレイヤーに対して線形後悔が生じる。
新しい後悔基準は小さな学習エラーに寛容。
O(T^2/3)後悔達成アルゴリズム開発。
より速い学習(O(√T))可能なリラックスした環境設計。
Quotes
"Our results take a step towards assessing how two-agent interactions in sequential and decentralized learning environments affect the utility of both agents."
"We construct a relaxed regret benchmark that is tolerant to small learning errors by agents."
"Standard learning algorithms fail to provide sublinear regret, and we develop algorithms to achieve near-optimal O(T 2/3) regret for both players with respect to these benchmarks."
"Altogether, our results take a step towards assessing how two-agent interactions in sequential and decentralized learning environments affect the utility of both agents."