Core Concepts
VQ-CD는 양자화 공간 정렬(QSA)과 선택적 가중치 활성화(SWA)를 통해 다양한 작업 시퀀스에서 지속적인 오프라인 강화 학습(CORL) 문제를 해결하는 새로운 프레임워크입니다.
Abstract
정렬된 공간에서 선택적 가중치 활성화를 통한 지속적인 오프라인 강화 학습 해결
본 연구 논문에서는 이전 작업에 대한 지식을 유지하면서 새로운 작업을 지속적으로 학습할 수 있는 continual offline reinforcement learning (CORL) 문제를 해결하고자 합니다. 특히, 다양한 상태 및 행동 공간을 가진 작업 시퀀스에서도 효과적으로 작동하는 새로운 프레임워크를 제안합니다.
본 논문에서 제안하는 Vector-Quantized Continual Diffuser (VQ-CD) 프레임워크는 크게 두 가지 모듈로 구성됩니다.
양자화 공간 정렬 (QSA) 모듈
VQ-CD는 다양한 작업에서 서로 다른 상태 및 행동 공간을 정렬하기 위해 QSA 모듈을 사용합니다. 이 모듈은 벡터 양자화를 활용하여 서로 다른 작업 공간을 통합된 공간으로 매핑하고, 학습된 코드북을 기반으로 원래 작업 공간으로 복원합니다. 이를 통해 VQ-CD는 다양한 작업 시퀀스에서 지속적인 학습이 가능해집니다.
선택적 가중치 활성화 (SWA) 모듈
SWA 모듈은 각 작업에 대한 작업 관련 가중치 마스크를 생성하고, 이를 U-Net 구조의 diffusion 모델의 1차원 컨볼루션 커널에 적용합니다. 이를 통해 학습 및 추론 과정에서 관련 없는 가중치의 영향을 차단하고, 이전 작업에서 습득한 지식을 효과적으로 유지합니다. 또한, 학습 후에는 작업 관련 가중치를 통합하여 메모리 효율성을 높입니다.