이 논문은 CLIP 이미지 인코더의 작은 대체 모델을 제로샷 설정에서 효율적으로 학습하는 방법을 제안한다. 주요 내용은 다음과 같다:
제로샷 증류를 위한 통합 프레임워크를 소개한다. 이는 대규모 일반 데이터셋에 대한 사전 학습과 도메인 특화 합성 데이터에 대한 fine-tuning으로 구성된다.
합성 데이터를 활용할 때 대조 손실 함수를 사용하면 모델이 잡음 특징을 학습하여 실제 데이터에 대한 일반화 성능이 저하되는 문제를 발견했다.
이미지 특징 기반의 L2 증류 손실을 사용하면 이러한 문제를 완화할 수 있으며, 합성 데이터와 실제 데이터 간 일반화 성능이 향상된다.
제안한 프레임워크를 통해 ViT-B/32 CLIP 이미지 인코더를 최대 93% 적은 매개변수를 가진 학생 모델로 증류할 수 있으며, 이는 교사 모델의 분류 성능을 거의 따라잡는다.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Niclas Popp,... às arxiv.org 04-26-2024
https://arxiv.org/pdf/2404.16637.pdfPerguntas Mais Profundas