この研究は、主体と代理人のバンディットゲームにおいて、報酬を最適化するためのインセンティブ付き学習を導入しています。主体は報酬を最大化するために代理人の意思決定を影響し、代理人は期待報酬とインセンティブを最大化する行動を選択します。アルゴリズムIPAは、ほぼ最適な分布フリーおよびインスタンス依存の後悔境界を実現し、コンテキストUAL IPAは、線形コンテキストバンディット設定で応用範囲を広げます。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы