Core Concepts
予測されたコンテキストを持つバンディット問題において、新しいオンラインアルゴリズムMEBが提案され、サブリニアレグレットを保証することが示されました。
Abstract
オンライン学習の重要性と、予測されたコンテキストの影響が強調される。
バンディット問題における新しいアルゴリズムMEBの提案とその性能評価が行われる。
合成環境と実データ環境でのシミュレーション結果が示され、MEBの優れた性能が確認される。
Stats
MEBは標準ベンチマークよりも優れた性能を示す。
σ2η = 5.0ではUCBが最も優れている場合もある。
Quotes
"We propose the first online algorithm in this setting with sublinear regret guarantees under mild conditions."
"Our proposed estimator corrects the inconsistency of previous methods by considering the interplay between policy and measurement error."