두 팔 가우시안 밴딧에서 알려지지 않은 분산을 가진 고정 예산 최선의 팔 식별을 위한 국소적으로 최적인 전략
본 연구는 알려지지 않은 분산을 가진 두 팔 가우시안 밴딧에서 고정 예산 최선의 팔 식별 문제를 다룹니다. 저자는 Neyman 할당을 사용하는 추정된 분산 기반 전략인 NA-AIPW 전략을 제안하고, 이 전략이 작은 격차 체제에서 Kaufmann et al. (2016)이 제시한 하한과 일치하는 오분류 확률 상한을 가짐을 보입니다. 이는 분산이 알려지지 않은 경우에도 최적의 전략을 찾을 수 있음을 시사합니다.