핵심 개념
오프라인 데이터셋 시퀀스를 통해 새로운 기술을 지속적으로 학습할 수 있는 에이전트의 능력이 필요하다. 그러나 제한된 리소스 환경에서 오프라인 작업 시퀀스를 연속적으로 학습하면 재앙적 망각 문제가 발생할 수 있다.
초록
이 논문은 지속적인 오프라인 강화 학습(CORL)이라는 새로운 설정을 제시한다. CORL에서 에이전트는 오프라인 강화 학습 작업 시퀀스를 학습하고 소규모 재현 버퍼 없이 모든 학습된 작업에 대한 좋은 성능을 추구한다.
지속적으로 모든 순차적 작업을 학습하기 위해서는 에이전트가 새로운 지식을 습득하고 동시에 오프라인 방식으로 이전 지식을 보존해야 한다. 이를 위해 저자들은 지속적 학습 알고리즘을 소개하고 경험 재현(ER)이 CORL 문제에 가장 적합한 알고리즘임을 실험적으로 발견했다.
그러나 CORL에 ER을 도입하면 새로운 분포 편향 문제가 발생한다: 재현 버퍼의 경험과 학습된 정책의 궤적 간 불일치. 이 문제를 해결하기 위해 저자들은 모델 기반 경험 선택(MBES) 방식을 제안한다. MBES는 전이 모델을 학습하여 재현 버퍼와 학습된 모델 간 분포 편향을 해소한다.
또한 새로운 작업 학습 능력을 향상시키기 위해 저자들은 행동 모방 손실이 Q-학습 프로세스에 미치는 방해를 피하기 위한 새로운 이중 행동 모방(DBC) 아키텍처를 도입했다. 전반적으로 이러한 접근법을 오프라인 경험 재현(OER)이라고 한다.
광범위한 실험 결과, OER 방법이 널리 사용되는 Mujoco 환경에서 최신 기준 방법들을 능가한다는 것을 보여준다.
통계
오프라인 데이터셋을 통해 새로운 기술을 지속적으로 학습할 수 있는 에이전트의 능력이 필요하다.
제한된 리소스 환경에서 오프라인 작업 시퀀스를 연속적으로 학습하면 재앙적 망각 문제가 발생할 수 있다.
지속적으로 모든 순차적 작업을 학습하기 위해서는 에이전트가 새로운 지식을 습득하고 동시에 이전 지식을 보존해야 한다.
오프라인 RL에 ER을 도입하면 재현 버퍼의 경험과 학습된 정책의 궤적 간 불일치라는 새로운 분포 편향 문제가 발생한다.
저자들은 MBES와 DBC라는 두 가지 핵심 아이디어를 통해 OER 방법을 제안했다.
OER 방법은 널리 사용되는 Mujoco 환경에서 최신 기준 방법들을 능가하는 성능을 보였다.
인용구
"오프라인 데이터셋 시퀀스를 통해 새로운 기술을 지속적으로 학습할 수 있는 에이전트의 능력이 필요하다."
"제한된 리소스 환경에서 오프라인 작업 시퀀스를 연속적으로 학습하면 재앙적 망각 문제가 발생할 수 있다."
"지속적으로 모든 순차적 작업을 학습하기 위해서는 에이전트가 새로운 지식을 습득하고 동시에 이전 지식을 보존해야 한다."
"오프라인 RL에 ER을 도입하면 재현 버퍼의 경험과 학습된 정책의 궤적 간 불일치라는 새로운 분포 편향 문제가 발생한다."