Core Concepts
本論文では、バンディット環境における組み合わせアームの選択問題を考え、各ラウンドでの切り替えコストを考慮した最適化手法を提案する。バンディットフィードバックとセミバンディットフィードバックの2つの設定において、最小最大レグレットの下限を導出し、それに近づくアルゴリズムを設計する。
Abstract
本論文では、組み合わせバンディット問題において、各ラウンドでの切り替えコストを考慮した最適化手法を提案している。
まず、バンディットフィードバックとセミバンディットフィードバックの2つの設定において、最小最大レグレットの下限を導出している。バンディットフィードバックの場合、下限は ˜Ω((λK)1/3(TI)2/3)、セミバンディットフィードバックの場合は ˜Ω((λKI)1/3T2/3)となる。
次に、これらの下限に近づくアルゴリズムを提案している。バンディットフィードバックの場合は、BATCHED-EXP2アルゴリズムを提案し、レグレット上限は ˜O((λK)1/3T2/3I4/3)となる。セミバンディットフィードバックの場合は、BATCHED-BROADアルゴリズムを提案し、レグレット上限は ˜O((λK)1/3(TI)2/3 + KI)となる。
提案アルゴリズムは、切り替えコストを考慮しつつ、最小最大レグレットの下限に近づくことが示されている。
Stats
組み合わせアームの数は K、各ラウンドで選択されるアームの数は I
切り替えコストは λ > 0
時間的な水平線は T