핵심 개념
이전 에피소드의 보상 샘플을 활용하여 현재 에피소드의 누적 regret 성능을 향상시키는 알고리즘을 제안한다.
초록
이 논문은 순차적 다중 팔 밴딧 문제를 다룬다. 각 에피소드에서 팔의 보상 분포는 일정하지만 에피소드 간에는 변화할 수 있다. 저자들은 이전 에피소드의 보상 샘플을 활용하여 현재 에피소드의 성능을 향상시키는 All Sample Transfer UCB (AST-UCB) 알고리즘을 제안한다.
주요 내용은 다음과 같다:
AST-UCB 알고리즘은 UCB 알고리즘을 기반으로 하며, 이전 에피소드의 보상 샘플을 활용하여 현재 에피소드의 결정을 내린다.
AST-UCB의 regret 상한을 분석하였으며, 이를 통해 전이 학습으로 인한 성능 향상을 확인할 수 있다.
실험 결과를 통해 AST-UCB가 기존 UCB 알고리즘에 비해 우수한 성능을 보임을 확인하였다.
통계
각 에피소드의 최적 팔의 평균 보상 µj
∗은 n번의 시행 동안 합계 nµj
∗이다.
각 팔 k의 평균 보상 µj
k와 최적 팔의 평균 보상 µj
∗의 차이 ∆j
k = µj
∗ - µj
k는 팔 k의 sub-optimality gap이다.
인용구
"Transfer learning uses knowledge from one bandit problem in order to improve the performance of another related bandit problem [6], [7]. In particular, it helps to accelerate learning and make better decisions quickly."
"The idea of transferring knowledge using samples is used in the SW-UCB algorithm in [15], but it suffers from the notion of negative transfer, where knowledge transfer can degrade the performance. In contrast, our algorithm facilitates knowledge transfer while guaranteeing that there is no negative transfer."