이 논문은 고정 예산 최선 팔 식별 문제를 다룹니다. 이 문제에서 예보자는 K개의 팔(또는 처리)과 T개의 시간 단계를 가지고 있습니다. 예보자는 적응형 실험을 통해 가장 큰 평균을 가진 팔을 찾으려고 합니다. 알고리즘의 성능은 "단순 후회"로 평가되며, 이는 추정된 최선 팔의 품질을 반영합니다.
저자는 베이지안 단순 후회가 다항식으로 감소하는 반면, 최빈도 단순 후회는 지수적으로 감소할 수 있음을 보여줍니다. 또한 저자는 베이지안 단순 후회를 최소화하는 베이지안 최적 알고리즘이 특정 매개변수 설정에서 지수적 감소를 나타내지 않음을 입증합니다. 이는 고정 샘플링 체제에서 베이지안 및 최빈도 접근법의 점근적 동등성을 제안하는 많은 연구 결과와 대조됩니다.
베이지안 최적 알고리즘은 거의 계산할 수 없는 재귀 방정식으로 공식화되지만, 저자는 기대 벨만 개선이라는 새로운 개념을 도입하여 향후 연구를 위한 기반을 마련합니다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Junpei Komiy... às arxiv.org 04-16-2024
https://arxiv.org/pdf/2202.05193.pdfPerguntas Mais Profundas