この論文では、最近傍ルールをコンテキストバンディット問題に適用し、データ生成についての仮定が一切ない効率的なアルゴリズムを開発しています。このアルゴリズムは、トライアルごとの実行時間が多項対数であり、行動数やトライアル数に対して非常に効率的です。さらに、このアルゴリズムは汎用的な後悔限界を提供し、ユークリッド空間内の確率バンディット問題に適用することも可能です。これにより、オンライン分類問題への応用も可能とされています。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania