バンディット環境下でインセンティブ整合的な学習アルゴリズムを設計することは、最適な専門家の信念に対する後悔を最小化するために重要である。しかし、既存のアルゴリズムでは最適な後悔率を達成できないことが示された。
ハフィーな入力は、入力特徴空間が変動する問題であり、従来のオンライン学習手法では適切に対処できない。本論文では、ハフィーな入力に対応する手法を分類、評価、比較し、ベンチマークを確立する。
過去の決定全体が現在の損失に影響を及ぼす場合のオンラインの凸最適化問題を扱う新しい枠組みを提案し、その上限と下限の正則化レグレットを示す。
既存のプライマル・デュアルアルゴリズムを弱適応性リグレット最小化器で拡張し、実用的なアプリケーションに適用可能な「デュアルバランス」フレームワークを提供します。