核心概念
Principal-agent bandit games introduce incentivized learning to optimize utility.
要約
この研究は、主体と代理人のバンディットゲームにおいて、報酬を最適化するためのインセンティブ付き学習を導入しています。主体は報酬を最大化するために代理人の意思決定を影響し、代理人は期待報酬とインセンティブを最大化する行動を選択します。アルゴリズムIPAは、ほぼ最適な分布フリーおよびインスタンス依存の後悔境界を実現し、コンテキストUAL IPAは、線形コンテキストバンディット設定で応用範囲を広げます。
統計
主体と代理人のバンディットゲームにおける報酬最大値:maxa∈A{sa + θa}
アルゴリズムIPAの後悔境界:ほぼTに対してオーダーαであることが示されている。
コンテキストUAL IPAのKL情報量:KLinf(ρ, µ⋆, D)
最大トータルウェルフェア:maxa∈A{sa + θa}
代理人の行動選択式(式18):At = argmaxa∈At{sa + 1at(a)π(t)}