Keskeiset käsitteet
推定された分散を使用した局所的に最適な戦略が、小さな差異領域で最適であることを示す。
Tiivistelmä
二腕ガウスバンディットにおける固定予算の最良アーム識別問題を検討。
Kaufmann et al. (2016)は、分散が既知の場合に最適な戦略を提案。
分散が未知の場合、Neyman Allocation-AIPW戦略が提案され、小さな差異領域で最適性を示す。
小さな差異領域では、分散の推定誤差が無視できるほど小さい。
戦略の上限確率は下限値と一致することが示されている。
Introduction:
問題: 固定予算内での最良アーム特定。
実験: 2つのアームとガウス報酬を考慮。
目標: 最終的に期待報酬が高いアームを特定。
Background:
Kaufmann et al. (2016)は確率の下限値開発。
上限値未解決。未知分散時に戦略不明。
NA-AIPW Strategy:
サンプリングルール: Neyman Allocation使用。
推奨ルール: Augmented Inverse Probability Weighting Estimator使用。
Proof of Theorem 4.1:
上限確率:∆ → 0時、Vに対して∆^2/2V - o(∆^2)以上。
Tilastot
Kaufmann et al. (2016)は、lim sup - 1/T log PP*(baT ≠ a⋆(P)) ≤ ∆^2/(2(σ1 + σ2)^2).