이 논문은 오프라인 강화학습(Offline Reinforcement Learning, Offline RL)에 대해 다룬다. 오프라인 RL은 사전에 수집된 데이터셋에서 정책을 학습하는 방법으로, 실시간 상호작용이나 온라인 탐험이 필요하지 않다. 이는 의료, 로봇공학, 자율주행 등의 실세계 응용 분야에서 중요한 역할을 한다.
기존 오프라인 RL 방법은 크게 모델 없는(model-free) 방식과 모델 기반(model-based) 방식으로 나뉜다. 모델 없는 방식은 오프라인 데이터 분포에 가�운 정책을 학습하지만 일반화 성능이 제한적이다. 모델 기반 방식은 동역학 모델을 학습하고 이를 활용해 추가 데이터를 생성하지만, 생성된 데이터의 품질이 낮아 성능 향상이 제한적이다.
이 논문에서는 World Transformer라는 새로운 모델을 제안한다. World Transformer는 상태 동역학과 보상 함수를 예측하며, 이를 활용해 고품질의 장기 궤적 시뮬레이션을 생성한다. 이렇게 생성된 시뮬레이션 데이터와 오프라인 데이터를 함께 활용하여 오프라인 RL 성능을 향상시킨다.
구체적으로 다음과 같은 내용을 다룬다:
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ziqi Zhao,Zh... at arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10393.pdfDeeper Inquiries