핵심 개념
확률적 세계 모델은 탐색을 개선하고 새로운 샘플을 획득하기 위해 모델의 인식론적 불확실성을 활용하여 데이터 효율성을 높입니다. 또한 확률적 접근법의 불확실성 인식 학습 절차는 잡음이 있는 관측치에 덜 민감한 강건한 정책을 생성합니다. 본 연구에서는 최적 제어 설정에서 데이터 효율적인 모델 기반 강화학습 솔루션을 위해 궤적 샘플링과 딥 가우시안 공분산 네트워크(DGCN)를 결합합니다.
초록
본 연구는 모델 기반 강화학습(MBRL)에서 데이터 효율성과 강건성을 높이기 위해 궤적 샘플링과 딥 가우시안 공분산 네트워크(DGCN)를 결합한 방법을 제안합니다.
-
확률적 세계 모델은 모델의 인식론적 불확실성을 활용하여 탐색을 개선하고 새로운 샘플을 획득함으로써 데이터 효율성을 높일 수 있습니다. 또한 확률적 접근법의 불확실성 인식 학습 절차는 잡음이 있는 관측치에 덜 민감한 강건한 정책을 생성합니다.
-
본 연구에서는 최적 제어 설정에서 데이터 효율적인 MBRL 솔루션을 위해 궤적 샘플링과 DGCN을 결합한 방법인 DGCNTS를 제안합니다. DGCN은 비정상적인 커널 매개변수를 모델링하여 다양한 데이터 분포에 적응할 수 있는 유연한 GP 모델입니다.
-
실험 결과, DGCNTS는 다른 불확실성 전파 방법 및 확률 모델 조합에 비해 샘플 효율성을 개선했습니다. 특히 초기 상태에 대한 잡음에 강건한 정책을 학습할 수 있었습니다.
-
향후 연구에서는 복잡한 작업과 더 높은 차원의 상태 및 행동 공간으로 확장하고, 초기 학습 단계에서의 탐험에 초점을 맞출 계획입니다.
통계
상태 공간의 차원은 IPSU 과제에서 5, IDP 과제에서 6, CMC 과제에서 2, P 과제에서 3입니다.
IPSU 과제에서는 80개의 초기 샘플, IDP 과제에서는 54개의 초기 샘플, CMC와 P 과제에서는 각각 50개의 초기 샘플을 사용했습니다.
IPSU 과제의 학습 및 평가 시계열 길이는 각각 80/110, IDP 과제는 50/200, CMC와 P 과제는 각각 50/50입니다.
정책의 훈련 가능 매개변수 수는 IPSU 과제에서 605, IDP 과제에서 286, CMC 과제에서 107, P 과제에서 143입니다.
인용구
"확률적 세계 모델은 모델의 인식론적 불확실성을 활용하여 탐색을 개선하고 새로운 샘플을 획득함으로써 데이터 효율성을 높일 수 있습니다."
"확률적 접근법의 불확실성 인식 학습 절차는 잡음이 있는 관측치에 덜 민감한 강건한 정책을 생성합니다."