제안된 한 단계 전방 시선 접근법은 샘플 효율적인 연속 로봇 제어를 실현하기 위해 잠재 공간 모델과 정책을 함께 학습하는 것을 제안합니다.
확률적 세계 모델은 탐색을 개선하고 새로운 샘플을 획득하기 위해 모델의 인식론적 불확실성을 활용하여 데이터 효율성을 높입니다. 또한 확률적 접근법의 불확실성 인식 학습 절차는 잡음이 있는 관측치에 덜 민감한 강건한 정책을 생성합니다. 본 연구에서는 최적 제어 설정에서 데이터 효율적인 모델 기반 강화학습 솔루션을 위해 궤적 샘플링과 딥 가우시안 공분산 네트워크(DGCN)를 결합합니다.