この研究は、主体と代理人のバンディットゲームにおいて、報酬を最適化するためのインセンティブ付き学習を導入しています。主体は報酬を最大化するために代理人の意思決定を影響し、代理人は期待報酬とインセンティブを最大化する行動を選択します。アルゴリズムIPAは、ほぼ最適な分布フリーおよびインスタンス依存の後悔境界を実現し、コンテキストUAL IPAは、線形コンテキストバンディット設定で応用範囲を広げます。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Antoine Sche... lúc arxiv.org 03-07-2024
https://arxiv.org/pdf/2403.03811.pdfYêu cầu sâu hơn