핵심 개념
수면 밴딧에서 거의 최적의 행동별 후회 한계를 도출했습니다.
초록
다양한 알고리즘을 사용하여 수면 밴딧의 행동별 후회 한계를 최적화하고 새로운 결과를 도출했습니다.
수면 밴딧과 관련된 표준 비수면 밴딧의 적응 및 추적 후회 한계에 대한 새로운 증명을 제시했습니다.
수면 전문가로부터의 조언을 받는 밴딧에 대한 새로운 경계에 대한 결과를 제시했습니다.
통계
최고 알려진 상한선은 O(K√TA ln K)입니다.
새로운 알고리즘인 SB-EXP3은 O(√TA ln GT) 후회 한계를 가지고 있습니다.
FTARL 알고리즘은 O(√TA ln K) 및 O(√AK) 후회 한계를 제공합니다.
인용구
"우리의 작업은 완전히 적대적인 환경에서 행동별 후회를 최소화하는 데 초점을 맞추고 있습니다."
"수면 밴딧을 위한 새로운 알고리즘과 분석을 통해 기존 결과를 엄격하게 일반화했습니다."