Core Concepts
무한대 팔 밴딧 문제에서 보상이 감소하는 로팅 환경을 다루기 위해 적응형 슬라이딩 윈도우 기반 알고리즘을 제안하고, 이를 통해 느린 로팅 및 급격한 로팅 시나리오에 대한 엄밀한 후회 상한을 달성한다.
Abstract
이 연구에서는 팔의 평균 보상이 각 플레이마다 감소할 수 있는 로팅 환경에서의 무한대 팔 밴딧 문제를 다룬다. 두 가지 시나리오를 고려하는데, 하나는 총 로팅 양이 VT로 제한되는 느린 로팅 시나리오이고, 다른 하나는 로팅 발생 횟수가 ST로 제한되는 급격한 로팅 시나리오이다.
로팅 보상으로 인한 편향-분산 트레이드오프 문제를 해결하기 위해 적응형 슬라이딩 윈도우를 활용한 알고리즘을 제안한다. 제안된 알고리즘은 느린 로팅 및 급격한 로팅 시나리오 모두에 대해 엄밀한 후회 상한을 달성한다. 또한 합성 데이터셋을 사용하여 알고리즘의 성능을 입증한다.
Stats
느린 로팅 시나리오에서 β ≥1일 때 후회 상한은 ˜O(max{V1/(β+2)
T
T(β+1)/(β+2), Tβ/(β+1)})이다.
느린 로팅 시나리오에서 0 < β < 1일 때 후회 상한은 ˜O(max{V1/3
T
T2/3,
√
T})이다.
급격한 로팅 시나리오에서 β ≥1일 때 후회 상한은 ˜O(max{S1/(β+1)
T
Tβ/(β+1), VT})이다.
급격한 로팅 시나리오에서 0 < β < 1일 때 후회 상한은 ˜O(max{√ST T, VT})이다.
Quotes
"무한대 팔 밴딧 문제에서 보상이 감소하는 로팅 환경을 다루기 위해 적응형 슬라이딩 윈도우 기반 알고리즘을 제안한다."
"제안된 알고리즘은 느린 로팅 및 급격한 로팅 시나리오 모두에 대해 엄밀한 후회 상한을 달성한다."