이 논문은 지속적인 오프라인 강화 학습(CORL)을 다룬다. CORL은 오프라인 데이터셋을 순차적으로 학습하면서 이전 지식을 유지하고 새로운 지식을 효과적으로 전이하는 문제이다.
저자들은 다음과 같은 접근법을 제안한다:
행동 생성 모델과 행동 평가 모델로 구성된 이중 생성기 시스템을 도입한다. 행동 생성 모델은 확산 모델을 사용하여 다양한 행동 패턴을 모델링할 수 있다.
이전 과제의 상태 분포를 모방하는 상태 생성 모델을 학습한다. 이를 통해 이전 과제의 고품질 가상 샘플을 생성할 수 있다.
실제 샘플과 가상 샘플을 혼합하여 행동 생성 모델과 다중 헤드 비평가 모델을 순차적으로 학습한다. 이를 통해 새로운 지식을 습득하면서 이전 지식을 유지할 수 있다.
실험 결과, 제안 방법인 CuGRO가 다양한 기준선 방법들에 비해 우수한 성능을 보였다. 특히 이전 과제의 실제 데이터를 사용한 경우와 거의 동일한 성능을 달성했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jinmei Liu,W... at arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10662.pdfDeeper Inquiries