Core Concepts
지속적 학습 환경에서 비전-언어 모델의 성능 저하를 해결하기 위해 전문가 혼합 어댑터 기반의 매개변수 효율적인 학습 프레임워크를 제안한다.
Abstract
이 논문은 비전-언어 모델의 지속적 학습 문제를 해결하기 위한 매개변수 효율적인 학습 프레임워크를 제안한다. 주요 내용은 다음과 같다:
전문가 혼합(Mixture-of-Experts, MoE) 어댑터를 활용하여 사전 학습된 CLIP 모델을 동적으로 확장한다. 이를 통해 새로운 작업에 효율적으로 적응할 수 있다.
이전 작업의 지식을 보존하고 새로운 작업에 대한 지식을 습득할 수 있도록 점진적인 활성화-동결 전략을 도입한다.
분포 차별적 자동 선택기(DDAS)를 설계하여 입력 데이터를 MoE 어댑터와 원래의 CLIP 모델에 자동으로 할당함으로써 기억력 향상과 제로샷 전이 능력을 통합한다.
다양한 실험을 통해 제안 방법이 기존 최신 기법들에 비해 분류 정확도와 학습 효율성 측면에서 우수한 성능을 보임을 입증한다.
Stats
지속적 학습 환경에서 CLIP 모델의 매개변수 수를 60% 감소시킬 수 있다.
지속적 학습 환경에서 GPU 메모리 사용량을 15% 감소시킬 수 있다.
지속적 학습 환경에서 학습 시간을 60% 단축시킬 수 있다.
Quotes
"지속적 학습은 전체 역사적 데이터셋에 대한 접근 없이도 비전-언어 모델이 새로운 지식을 지속적으로 습득할 수 있게 해준다."
"대규모 모델의 장기적 성능 저하를 완화하는 것은 (i) 종단간 학습 과정에서의 매개변수 변화와 (ii) 전체 모델 미세 조정과 관련된 상당한 계산 부담으로 인해 비trivial하다."