Grunnleggende konsepter
Decision Transformer를 활용하여 다양한 과제를 순차적으로 학습하고 이전 과제에 대한 지식을 효과적으로 유지하는 방법을 제안한다.
Sammendrag
이 논문은 지속적인 오프라인 강화 학습(CORL) 문제를 해결하기 위해 Decision Transformer(DT)를 활용하는 방법을 제안한다.
CORL은 오프라인 데이터셋에서 다양한 과제를 순차적으로 학습하는 문제로, 안정성과 가소성의 균형을 유지하는 것이 핵심 과제이다.
기존 Actor-Critic 기반 오프라인 강화 학습 알고리즘은 분포 변화, 낮은 효율성, 지식 공유 능력 부족 등의 문제가 있다.
DT는 오프라인 강화 학습에서 높은 효율성, 분포 변화 완화, 제로샷 일반화 능력 등의 장점이 있지만, 과제 전환 시 빠른 망각 문제가 발생한다.
이를 해결하기 위해 저자들은 Multi-Head DT(MH-DT)와 Low-Rank Adaptation DT(LoRA-DT)를 제안한다.
MH-DT는 과제별 지식을 저장하는 다중 헤드를 사용하고, 증류와 선별적 리허설을 통해 현재 과제 학습을 강화한다.
LoRA-DT는 영향력이 낮은 가중치를 병합하고 DT의 핵심 MLP 레이어를 LoRA로 미세 조정하여 현재 과제에 적응한다.
실험 결과, 제안 방법들이 기존 CORL 기법들을 능가하며 학습 능력 향상과 메모리 효율성 향상을 보여준다.
Statistikk
과제 전환 시 Decision Transformer의 성능이 즉시 변화하여 과제 변화를 잘 감지할 수 있다.
Decision Transformer는 이전 과제와 유사한 과제를 학습할 때 성능 향상을 보인다.
Sitater
"Decision Transformer는 오프라인 강화 학습에서 높은 학습 효율성, 분포 변화 완화, 제로샷 일반화 능력 등의 장점이 있지만, 과제 전환 시 빠른 망각 문제가 발생한다."
"Multi-Head DT(MH-DT)는 과제별 지식을 저장하는 다중 헤드를 사용하고, 증류와 선별적 리허설을 통해 현재 과제 학습을 강화한다."
"Low-Rank Adaptation DT(LoRA-DT)는 영향력이 낮은 가중치를 병합하고 DT의 핵심 MLP 레이어를 LoRA로 미세 조정하여 현재 과제에 적응한다."