Основні поняття
FTPL with Fréchet perturbations achieves optimal regret in adversarial bandits and Best-of-Both-Worlds in stochastic bandits.
Статистика
최근 연구에서 FTPL은 Fréchet 분포를 사용하여 적대적 밴딧에서 O(√KT) 후회를 달성한다.
FTPL은 확률적 밴딧에서 로그 후회를 달성한다.
Цитати
"FTPL with Fréchet perturbations achieves O(√KT) regret in adversarial bandits." - Honda et al.
"FTPL with Fréchet perturbations attains logarithmic regret in stochastic bandits." - Honda et al.