Concepts de base
線形バンディットのアンサンブルサンプリングは、小さなアンサンブルでも効果的であることを示す。
Résumé
University of Albertaによるこの論文では、線形バンディットのアンサンブルサンプリングに焦点を当てています。Thompson samplingに代わる手法として導入されたこの手法は、探索と活用のバランスを取るためのランダム化アルゴリズムです。本論文では、従来の設定において初めて成功した結果が提供されており、小さなアンサンブルでも効果的であることが示されています。また、他の関連する結果や過去の分析手法との比較も行われています。
Stats
d次元の線形バンディットにおける相互作用ホライズントTを持つ場合、d log Tオーダーの集団で最大(d log T)5/2√Tまで後悔が発生します。
ベイジア後悔に対する上限はBR(T) ≤ C p dT log K + CT r K log(mT) m (d ∧ log K)です。
結果は確率1−δで保証されます。
アルゴリズムは事前に固定された集団数mを必要とし、後悔境界は直接的にTに依存します。
Citations
"A lot of work has attempted to analyze ensemble sampling, but none of them has been successful." - Qin et al. (2022)
"Our contribution is a guarantee that ensemble sampling, given an ensemble size logarithmic in T and linear in the number of features d, incurs regret no worse than order (d log T)5/2√ T." - Janz et al.
"Ensemble sampling was introduced as an alternative to Thompson sampling that is tractable whenever incremental model updates are cheap." - Osband et al. (2016)