본 논문에서는 안전성과 다양성을 모두 고려한 모델 기반 정책 검색을 통해 반복적인 배치 강화 학습(IBRL) 알고리즘을 제안하며, 이를 통해 제한된 데이터 환경에서도 효율적인 데이터 수집과 정책 개선을 가능하게 합니다.