이 논문은 지속적인 오프라인 강화 학습(CORL)을 다룬다. CORL은 오프라인 데이터셋을 순차적으로 학습하면서 이전 지식을 유지하고 새로운 지식을 효과적으로 전이하는 문제이다.
저자들은 다음과 같은 접근법을 제안한다:
행동 생성 모델과 행동 평가 모델로 구성된 이중 생성기 시스템을 도입한다. 행동 생성 모델은 확산 모델을 사용하여 다양한 행동 패턴을 모델링할 수 있다.
이전 과제의 상태 분포를 모방하는 상태 생성 모델을 학습한다. 이를 통해 이전 과제의 고품질 가상 샘플을 생성할 수 있다.
실제 샘플과 가상 샘플을 혼합하여 행동 생성 모델과 다중 헤드 비평가 모델을 순차적으로 학습한다. 이를 통해 새로운 지식을 습득하면서 이전 지식을 유지할 수 있다.
실험 결과, 제안 방법인 CuGRO가 다양한 기준선 방법들에 비해 우수한 성능을 보였다. 특히 이전 과제의 실제 데이터를 사용한 경우와 거의 동일한 성능을 달성했다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究