오프라인 강화 학습의 샘플 복잡성을 모델 기반 접근법으로 해결
모델 기반 오프라인 강화 학습에서 모델 데이터의 오차 크기에 따라 적응적으로 모델 데이터에 대한 페널티를 조정하는 온건한 보수적 알고리즘을 제안한다.