Concepts de base
Fréchet-type tail distributions enable FTPL to achieve optimal regrets in adversarial bandits and BOBW capability in stochastic bandits.
Résumé
この論文は、Follow-the-Perturbed-Leader(FTPL)ポリシーの最適性に焦点を当て、フレシェ型テール分布が敵対的バンディットで最適な後悔を達成し、確率的バンディットでBOBW能力を実現することを示しています。具体的には、フレシェ型テール分布の条件下でFTPLが最適な後悔を達成し、極値理論の観点からFTRLの正則化関数の影響を明らかにします。
FTPLは、敵対的バンディットや確率的バンディットで効果的なアルゴリズムとして注目されており、本研究はその最適性と有用性について詳細に説明しています。
Stats
Honda et al. [2023]による結果では、FTPL with Fréchet distribution with shape α = 2がO(√KT) regret in adversarial banditsとO[Pi log T ∆i] regret in stochastic banditsを実現することが示されている。
Kim and Tewari [2019]による研究では、Fréchet-type tail distribution perturbationsがO(√KT) regretsを達成する可能性があることが提唱されていた。
Citations
"Recent work by Honda et al. [2023] showed that FTPL with Fréchet distribution with shape α = 2 indeed attains this bound and, notably logarithmic regret in stochastic bandits, meaning the Best-of-Both-Worlds (BOBW) capability of FTPL."
"This paper proves that FTPL with Fréchet-type tail distributions satisfying some mild conditions can achieve O(√KT) regret in adversarial bandits, which resolves an open question raised by Kim and Tewari [2019] comprehensively."