본 논문에서는 안전성과 다양성을 모두 고려한 모델 기반 정책 검색을 통해 반복적인 배치 강화 학습(IBRL) 알고리즘을 제안하며, 이를 통해 제한된 데이터 환경에서도 효율적인 데이터 수집과 정책 개선을 가능하게 합니다.


coremsg

안전하고-다양한-모델-기반-정책-검색을-통한-반복적인-배치-강화-학습


안전하고 다양한 모델 기반 정책 검색을 통한 반복적인 배치 강화 학습