核心概念
Decision Transformer를 활용하여 다양한 과제를 순차적으로 학습하고 이전 과제에 대한 지식을 효과적으로 유지하는 방법을 제안한다.
摘要
이 논문은 지속적인 오프라인 강화 학습(CORL) 문제를 해결하기 위해 Decision Transformer(DT)를 활용하는 방법을 제안한다.
- CORL은 오프라인 데이터셋에서 다양한 과제를 순차적으로 학습하는 문제로, 안정성과 가소성의 균형을 유지하는 것이 핵심 과제이다.
- 기존 Actor-Critic 기반 오프라인 강화 학습 알고리즘은 분포 변화, 낮은 효율성, 지식 공유 능력 부족 등의 문제가 있다.
- DT는 오프라인 강화 학습에서 높은 효율성, 분포 변화 완화, 제로샷 일반화 능력 등의 장점이 있지만, 과제 전환 시 빠른 망각 문제가 발생한다.
- 이를 해결하기 위해 저자들은 Multi-Head DT(MH-DT)와 Low-Rank Adaptation DT(LoRA-DT)를 제안한다.
- MH-DT는 과제별 지식을 저장하는 다중 헤드를 사용하고, 증류와 선별적 리허설을 통해 현재 과제 학습을 강화한다.
- LoRA-DT는 영향력이 낮은 가중치를 병합하고 DT의 핵심 MLP 레이어를 LoRA로 미세 조정하여 현재 과제에 적응한다.
- 실험 결과, 제안 방법들이 기존 CORL 기법들을 능가하며 학습 능력 향상과 메모리 효율성 향상을 보여준다.
統計資料
과제 전환 시 Decision Transformer의 성능이 즉시 변화하여 과제 변화를 잘 감지할 수 있다.
Decision Transformer는 이전 과제와 유사한 과제를 학습할 때 성능 향상을 보인다.
引述
"Decision Transformer는 오프라인 강화 학습에서 높은 학습 효율성, 분포 변화 완화, 제로샷 일반화 능력 등의 장점이 있지만, 과제 전환 시 빠른 망각 문제가 발생한다."
"Multi-Head DT(MH-DT)는 과제별 지식을 저장하는 다중 헤드를 사용하고, 증류와 선별적 리허설을 통해 현재 과제 학습을 강화한다."
"Low-Rank Adaptation DT(LoRA-DT)는 영향력이 낮은 가중치를 병합하고 DT의 핵심 MLP 레이어를 LoRA로 미세 조정하여 현재 과제에 적응한다."