この論文では、最近傍ルールをコンテキストバンディット問題に適用し、データ生成についての仮定が一切ない効率的なアルゴリズムを開発しています。このアルゴリズムは、トライアルごとの実行時間が多項対数であり、行動数やトライアル数に対して非常に効率的です。さらに、このアルゴリズムは汎用的な後悔限界を提供し、ユークリッド空間内の確率バンディット問題に適用することも可能です。これにより、オンライン分類問題への応用も可能とされています。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Stephen Past... klokken arxiv.org 03-11-2024
https://arxiv.org/pdf/2306.13773.pdfDypere Spørsmål