核心概念
오프라인 데이터를 활용하여 온라인 학습을 촉진할 수 있는 접근법을 제안한다. 온라인 보상과 오프라인 데이터를 생성하는 확률 분포가 다를 수 있는 상황에서, 어떤 비예측적 정책도 오프라인 데이터가 없는 UCB 정책보다 성능이 좋을 수 없음을 보여준다. 이를 극복하기 위해 MIN-UCB 정책을 제안하며, 이는 비트리비얼한 상한이 주어진 경우 UCB를 능가한다.
要約
이 논문은 오프라인 데이터를 활용하여 온라인 학습을 개선하는 다중 armed 밴딧 문제를 다룬다. 온라인 보상과 오프라인 데이터를 생성하는 확률 분포가 다를 수 있는 상황을 고려한다.
먼저, 어떤 비예측적 정책도 오프라인 데이터가 없는 UCB 정책보다 성능이 좋을 수 없음을 보인다. 이는 오프라인 데이터를 활용하더라도 온라인 학습을 개선할 수 없음을 의미한다.
이를 극복하기 위해 MIN-UCB 정책을 제안한다. MIN-UCB는 오프라인 데이터와 온라인 데이터의 차이에 대한 상한이 주어진 경우, UCB를 능가하는 성능을 보인다. MIN-UCB는 오프라인 데이터가 유용하다고 판단될 때 이를 활용하고, 그렇지 않은 경우 무시한다.
MIN-UCB의 성능 분석을 통해 다음을 보인다:
- 인스턴스 의존적 regret 상한은 기존 UCB 대비 개선된다.
- 인스턴스 독립적 regret 상한은 최적에 가깝다.
마지막으로 실험 결과를 통해 MIN-UCB의 강건성과 성능 개선을 확인한다.
統計
오프라인 데이터와 온라인 보상의 기댓값 차이 |µ(off)(a) - µ(on)(a)| ≤ V(a)
최적 팔의 기댓값과 팔 a의 기댓값 차이 ∆(a) = µ(on)* - µ(on)(a)
引用
"We leverage offline data to facilitate online learning in stochastic multi-armed bandits. The probability distributions that govern the offline data and the online rewards can be different."
"Without any non-trivial upper bound on their difference, we show that no non-anticipatory policy can outperform the UCB policy by (Auer et al. 2002), even in the presence of offline data."
"MIN-UCB adaptively chooses to utilize the offline data when they are deemed informative, and to ignore them otherwise."