Concepts de base
본 논문에서는 사전 훈련된 비전-언어 모델(VLM)을 새로운 도메인에 점진적으로 적응시키면서 기존 지식과 새로운 지식을 모두 유지하는 새로운 지속 학습 방법인 RAIL(Regression-based Analytic Incremental Learning)을 제안합니다.
Résumé
비전-언어 모델의 지속 학습에서 교차 도메인 판별력 향상에 대한 연구 논문 요약
참고문헌: Xu, Y., Chen, Y., Nie, J., Wang, Y., Zhuang, H., & Okumura, M. (2024). Advancing Cross-domain Discriminability in Continual Learning of Vision-Language Models. Advances in Neural Information Processing Systems, 38.
본 연구는 비전-언어 모델(VLM)의 지속 학습에서 발생하는 기존 지식 손실(catastrophic forgetting) 문제를 해결하고, 새로운 도메인에 대한 적응력과 보지 못한 도메인에 대한 zero-shot 성능을 유지하는 것을 목표로 합니다.
본 논문에서는 회귀 기반 분석적 증분 학습(RAIL)이라는 새로운 지속 학습 방법을 제안합니다. RAIL은 크게 두 가지 구성 요소로 이루어져 있습니다.
RAIL-Adapter: 사전 훈련된 CLIP 모델에 적용되는 어댑터로, 새로운 도메인의 데이터를 점진적으로 학습하면서 모델을 업데이트합니다. 이때, primal form과 dual form의 두 가지 방식으로 구현됩니다.
Primal form: 랜덤하게 초기화된 은닉층(RHL)을 사용하여 CLIP에서 추출된 특징을 고차원 공간에 투영하고, 이를 통해 선형 분류기를 학습합니다.
Dual form: 커널 트릭을 사용하여 암시적으로 고차원 공간에 투영하고, 이를 통해 분류기를 학습합니다.
RAIL-Fusion: CLIP의 zero-shot 예측과 RAIL-Adapter의 예측을 결합하여 최종 예측을 수행하는 모듈입니다. 이 모듈은 테스트 이미지가 기존에 학습한 도메인에 속하는지 아니면 새로운 도메인에 속하는지 판별하고, 이에 따라 적절한 예측을 수행합니다.