오프라인 데이터를 활용하여 온라인 학습을 촉진할 수 있는 접근법을 제안한다. 온라인 보상과 오프라인 데이터를 생성하는 확률 분포가 다를 수 있는 상황에서, 어떤 비예측적 정책도 오프라인 데이터가 없는 UCB 정책보다 성능이 좋을 수 없음을 보여준다. 이를 극복하기 위해 MIN-UCB 정책을 제안하며, 이는 비트리비얼한 상한이 주어진 경우 UCB를 능가한다.