핵심 개념
多腕バンディット問題において、貪欲アルゴリズムが効果的であることを示す。
통계
初期設定ではk ≥ √Tとしている。
SS-UCBはΘ(√T)本の腕を選択して実行する。
Greedyアルゴリズムは各腕を1回引き、その後残りの時間で経験的に最良の腕を引く。
인용구
"SS-Greedy surpasses all other algorithms in performance."
"Greedy achieves sublinear regret across broader distributions."