오프라인 강화학습을 위한 오프라인 궤적 일반화
오프라인 강화학습에서 정적 데이터셋의 궤적을 활용하여 정책을 학습하는 방법을 제안한다. 기존 방법들은 오프라인 데이터의 지원 범위에 제한되거나 시뮬레이션된 롤아웃이 낮은 품질로 인해 성능 향상이 제한적이었다. 본 연구에서는 World Transformer를 이용하여 상태 동역학과 보상 함수를 예측하고, 이를 활용해 고품질의 장기 궤적 시뮬레이션을 생성하는 방법을 제안한다. 이를 통해 오프라인 데이터와 시뮬레이션 데이터를 함께 활용하여 오프라인 강화학습 성능을 향상시킬 수 있다.