본 연구는 강화학습에서 일정한 후회 보장을 위한 알고리즘 Cert-LSVI-UCB를 제안한다. 이 알고리즘은 모델 오차가 있는 선형 MDP 환경에서도 고확률로 일정한 후회 상한을 달성할 수 있다.