본 연구는 두 팔 가우시안 밴딧에서 고정 예산 최선의 팔 식별 문제를 다룹니다. 이 문제에서는 고정된 예산 내에서 적응형 실험을 통해 최고 기대 보상을 가진 팔을 식별하는 것이 목표입니다.
저자는 다음과 같은 내용을 다룹니다:
Kaufmann et al. (2016)이 제시한 최선의 팔 식별 확률에 대한 하한을 소개합니다. 이 하한은 알려진 분산을 가정하지만, 알려지지 않은 분산의 경우 최적 전략은 알려지지 않습니다.
저자는 Neyman 할당을 사용하는 추정된 분산 기반 전략인 NA-AIPW 전략을 제안합니다. 이 전략은 적응형 실험 중 분산을 추정하고, 추정된 표준편차 비율로 팔을 샘플링합니다. 또한 AIPW 추정기를 사용하여 최선의 팔을 추천합니다.
저자는 작은 격차 체제에서 NA-AIPW 전략의 오분류 확률 상한이 Kaufmann et al. (2016)의 하한과 일치함을 보입니다. 이는 분산이 알려지지 않은 경우에도 최적의 전략을 찾을 수 있음을 시사합니다.
저자는 마팅게일 차이 수열 및 Chernoff 부등식을 활용하여 이 결과를 증명합니다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor