Grunnleggende konsepter
웹 규모의 시간 연속 데이터셋을 활용하여 CLIP 모델을 지속적으로 학습하는 효율적인 방법을 제안한다. 기존 모델의 시간에 따른 성능 저하를 보여주고, 제한된 계산 예산 내에서 모델 성능을 유지하면서 지속적으로 학습할 수 있는 방법을 제시한다.
Sammendrag
이 논문은 CLIP 모델의 지속적인 학습을 위한 새로운 벤치마크와 학습 방법을 제안한다.
먼저, 기존 CLIP 모델의 성능 저하를 확인하기 위해 시간에 따른 데이터 분포 변화를 반영한 동적 평가 작업을 제안한다. 이를 통해 OpenAI CLIP 모델이 최근 데이터에 대해 성능이 저하되는 것을 확인했다.
이어서 시간에 따라 변화하는 데이터를 활용하여 CLIP 모델을 지속적으로 학습하는 방법을 제안한다. 제한된 계산 예산 내에서 이전 모델 체크포인트를 활용하고 과거 데이터를 재사용하는 방식으로 효율적인 학습을 수행한다. 실험 결과, 이 방법이 기존 방식 대비 2.5-4배 적은 계산 비용으로 유사한 성능을 달성할 수 있음을 보였다.
또한 데이터 버퍼 크기, 학습률 스케줄링 등 다양한 설계 선택지에 따른 성능 변화를 분석하여 실용적인 지침을 제공한다.
Statistikk
시간에 따라 변화하는 데이터 분포로 인해 OpenAI CLIP 모델의 2021-2022년 데이터에 대한 retrieval 성능이 2014-2016년 대비 약 8% 하락했다.
제안한 Cumulative-All 방식은 Oracle 대비 2.5-4배 적은 계산 비용으로 유사한 성능을 달성했다.
Sitater
"Keeping large foundation models up to date on latest data is inherently expensive."
"We begin by comparing robustness of OpenAI's CLIP models to others in OpenCLIP repository that are trained on more recently curated web-datasets (e.g., LAION-5B, DataComp) containing data up until 2022."
"One naive but common practice for adapting to time-evolving data is to train a new CLIP model from scratch every time we obtain a new pool of image-text data."