Core Concepts
오프라인 강화 학습 과제를 순차적으로 학습하면서 이전 지식을 유지하고 새로운 지식을 효과적으로 전이하는 방법을 제안한다.
Abstract
이 논문은 지속적인 오프라인 강화 학습(CORL)을 다룬다. CORL은 오프라인 데이터셋을 순차적으로 학습하면서 이전 지식을 유지하고 새로운 지식을 효과적으로 전이하는 문제이다.
저자들은 다음과 같은 접근법을 제안한다:
행동 생성 모델과 행동 평가 모델로 구성된 이중 생성기 시스템을 도입한다. 행동 생성 모델은 확산 모델을 사용하여 다양한 행동 패턴을 모델링할 수 있다.
이전 과제의 상태 분포를 모방하는 상태 생성 모델을 학습한다. 이를 통해 이전 과제의 고품질 가상 샘플을 생성할 수 있다.
실제 샘플과 가상 샘플을 혼합하여 행동 생성 모델과 다중 헤드 비평가 모델을 순차적으로 학습한다. 이를 통해 새로운 지식을 습득하면서 이전 지식을 유지할 수 있다.
실험 결과, 제안 방법인 CuGRO가 다양한 기준선 방법들에 비해 우수한 성능을 보였다. 특히 이전 과제의 실제 데이터를 사용한 경우와 거의 동일한 성능을 달성했다.
Stats
이전 과제의 상태 분포를 모방하는 상태 생성 모델을 학습한다.
실제 샘플과 가상 샘플을 혼합하여 행동 생성 모델을 순차적으로 학습한다.
다중 헤드 비평가 모델을 사용하여 새로운 과제를 학습하면서 이전 과제의 지식을 유지한다.
Quotes
"오프라인 강화 학습은 실시간 환경 상호작용 없이 사전 수집된 데이터셋에서 학습할 수 있어 많은 실제 시나리오에 중요하다."
"지속적인 강화 학습은 재앙적 망각을 완화하고 이전 지식의 전이를 가능하게 하는 것을 목표로 한다."
"우리는 이전 지식을 유지하기 위해 생성된 의사 데이터의 동시 재현을 통한 이중 생성 재현 프레임워크를 제안한다."