Abstract
앙상블 샘플링은 순차적 의사 결정 작업에서 탐색과 활용을 균형있게 유지하는 랜덤화 알고리즘의 가족이다.
알고리즘은 가치 모델의 앙상블을 유지하고 각 단계에서 앙상블에서 무작위로 선택된 모델에 따라 가치가 가장 높은 행동을 선택한다.
선형 밴딧에서 작은 앙상블 크기로도 후회를 최소화하는 것을 보여준다.
알고리즘은 릿지 회귀 추정을 사용하여 모델을 적합하고, 나머지 매개 변수 벡터는 왜곡으로 사용된다.
알고리즘은 확률적 선형 밴딧 설정에서 앙상블 샘플링의 첫 번째 성공적인 분석이다.
알고리즘은 Thompson 샘플링과 비교하여 후회가 더 나쁠 수 있지만, 작은 앙상블 크기로도 효과적으로 작동한다.
Stats
d-차원 활동에 대한 행동 집합 X의 기수 K에 대한 베이지안 후회는 다음과 같이 제한된다.
BR(T) ≤ C p dT log K + CT r K log(mT) m (d ∧ log K)
Quotes
"A lot of work has attempted to analyze ensemble sampling, but none of them has been successful." - Qin et al. (2022)