핵심 개념
본 논문에서는 구현된 의사 결정을 위한 세계 모델의 일반화 능력과 불확실성 추정 능력을 향상시키기 위해 행동 조건화 및 역추적 롤아웃 기술을 통합하는 WHALE 프레임워크를 제안합니다.
초록
WHALE: 구현된 의사 결정을 위한 일반화 가능하고 확장 가능한 세계 모델을 향하여
본 연구 논문에서는 구현된 의사 결정에서 효과적인 의사 결정을 가능하게 하는 세계 모델의 일반화 능력과 확장성을 향상시키는 것을 목표로 합니다. 저자는 기존의 확장 가능한 접근 방식의 중요한 과제였던 OOD(Out-of-Distribution) 영역에서의 충실한 상상력 지원과 시뮬레이션 경험의 신뢰도를 평가하기 위한 안정적인 불확실성 추정을 제공하는 데 중점을 둡니다.
본 연구의 주요 목표는 다음과 같습니다.
구현된 환경에서 의사 결정을 지원하는 세계 모델의 일반화 능력과 확장성을 향상시키는 것.
OOD 영역에서 충실한 상상력을 지원하고 안정적인 불확실성 추정을 제공하는 것.
이러한 목표를 달성하기 위해 저자는 두 가지 주요 기술로 구성된 WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning)이라는 프레임워크를 제안합니다.
행동 조건화: 세계 모델 일반화 오류의 주요 원인 중 하나인 정책 분포 변화를 해결합니다. 정책 조건화 모델 학습 개념을 기반으로 모델이 다양한 행동에 적응하여 분포 변화로 인한 외삽 오류를 완화할 수 있도록 합니다.
역추적 롤아웃: 모델 상상에 대한 효율적인 불확실성 추정을 가능하게 합니다. 이 접근 방식은 시각적 세계 모델의 계산적으로 비싼 앙상블의 필요성을 없애면서 완전히 오프라인 시나리오에서 정책 최적화를 용이하게 하는 안정적인 불확실성 추정을 제공합니다.
저자는 WHALE 프레임워크를 구현하기 위해 실제 시각적 제어 작업을 위한 충실한 장기간 상상력을 가능하게 하도록 설계된 공간-시간 변환기 기반의 확장 가능한 구현 세계 모델인 Whale-ST를 제시합니다. 또한 Open X-Embodiment 데이터 세트의 970,000개의 실제 로봇 데모에서 학습된 4억 1,400만 개의 매개변수 세계 모델인 Whale-X를 소개합니다. Whale-X는 실제 행동을 평가하기 위한 기초적인 구현 세계 모델 역할을 합니다.