Core Concepts
スリーピングバンディットにおける近似的なパーアクション後悔限界を導出する。
Abstract
コンピュータサイエンスの研究において、スリーピングバンディットに関する新しいアルゴリズムとその後悔限界を示す。これらのアルゴリズムは、従来の手法を厳密に一般化し、非スリーピングバンディットに関連する既存の最適な順序オプショナルな境界を回復します。
Stats
最良既知の上限値はO(K√T A ln K)です。
新しい証明が多数の既存の適応的および追跡後悔限界を導きます。
スリーピングエキスパートからアドバイスを受けるバンディット設定に対して新しい境界が得られます。
Quotes
"Algorithm 1 illustrates Sleeping Bandits using EXP3 (SB-EXP3), an adaptation of EXP3 and EXP3-IX to sleeping bandits."
"Similar to Algorithm 1, the regret bound of Algorithm 2 is obtained by bounding the estimated regret PT t=1 ˆℓt − ˜ℓa,t."
"Theorem 16. For any γ, η ∈ (0, 1), η ≤ 2γ, SE-EXP4 guarantees R(u) ≤ ln M η + ln(2M/δ) 2γ + (γ + η 2)T K + ln(2/δ)"
"Theorem 20. For any (possibly randomized) algorithm with guarantee sup a∈[K] E[R(a)] ≤ O(T γAβ(ln(T ))µ), where γ ∈ (0, 1), β ≥ 0, µ ≥ 0 are constants..."
"The limitation of this construction is that K has to grow with T."