실험적 탐색을 통해 실제 환경의 미지의 매개변수를 식별하고, 이를 활용하여 시뮬레이션 모델을 정확하게 구축한 후 실제 환경에서 효과적으로 작업을 수행할 수 있는 정책을 학습하는 방법론을 제안한다.