본 연구는 모델 기반 강화학습(MBRL)에서 데이터 효율성과 강건성을 높이기 위해 궤적 샘플링과 딥 가우시안 공분산 네트워크(DGCN)를 결합한 방법을 제안합니다.
확률적 세계 모델은 모델의 인식론적 불확실성을 활용하여 탐색을 개선하고 새로운 샘플을 획득함으로써 데이터 효율성을 높일 수 있습니다. 또한 확률적 접근법의 불확실성 인식 학습 절차는 잡음이 있는 관측치에 덜 민감한 강건한 정책을 생성합니다.
본 연구에서는 최적 제어 설정에서 데이터 효율적인 MBRL 솔루션을 위해 궤적 샘플링과 DGCN을 결합한 방법인 DGCNTS를 제안합니다. DGCN은 비정상적인 커널 매개변수를 모델링하여 다양한 데이터 분포에 적응할 수 있는 유연한 GP 모델입니다.
실험 결과, DGCNTS는 다른 불확실성 전파 방법 및 확률 모델 조합에 비해 샘플 효율성을 개선했습니다. 특히 초기 상태에 대한 잡음에 강건한 정책을 학습할 수 있었습니다.
향후 연구에서는 복잡한 작업과 더 높은 차원의 상태 및 행동 공간으로 확장하고, 초기 학습 단계에서의 탐험에 초점을 맞출 계획입니다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Can Bogoclu,... kl. arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15908.pdfDybere Forespørgsler