Core Concepts
CLIP의 뛰어난 제로샷 및 소샷 성능은 웹 스케일 데이터셋인 LAION의 규모와 다양성에 기인하는 것으로 여겨져 왔다. 그러나 LAION 데이터셋이 기존 OOD 벤치마크와 유사한 샘플을 많이 포함하고 있어, CLIP의 높은 성능이 단순히 훈련 데이터와 테스트 데이터의 유사성에 기인할 수 있다는 가설을 제기한다.
Abstract
이 논문은 CLIP의 일반화 성능이 훈련 데이터와 테스트 데이터의 유사성에 얼마나 의존하는지 체계적으로 분석한다. 주요 내용은 다음과 같다:
지각적 유사성 척도를 사용하여 LAION-400M과 ImageNet-Train 데이터셋의 OOD 벤치마크에 대한 유사성을 비교한다. LAION-400M이 ImageNet-Sketch, ImageNet-R 등의 OOD 벤치마크와 더 유사한 것으로 나타났다.
CLIP의 성능과 훈련 데이터의 유사성 간 강한 상관관계를 보여준다. 유사성 기반 데이터 프루닝 실험을 통해 유사한 데이터가 CLIP 성능에 중요한 역할을 함을 확인한다.
LAION-400M과 ImageNet-Train의 유사성 분포 차이를 정량화하고, 이를 '높은 유사성 이미지'라는 개념으로 정의한다.
이 개념을 바탕으로 LAION-400M에서 높은 유사성 이미지를 제거하여 CLIP을 재학습하는 실험을 수행한다. 그 결과, CLIP의 성능이 크게 저하되지 않아, 높은 유사성 이미지만으로는 CLIP의 뛰어난 일반화 성능을 설명할 수 없음을 보여준다.
이를 통해 CLIP의 일반화 능력은 단순히 훈련 데이터와 테스트 데이터의 유사성에 의해서만 설명되지 않으며, 데이터의 규모와 다양성 등 다른 요인들이 중요한 역할을 한다는 것을 시사한다.
Stats
LAION-400M 데이터셋에는 ImageNet-Sketch 이미지의 3.1%가 중복되어 있지만, ImageNet-Train에는 0.04%만 중복된다.
반면 ImageNet-Train에는 ImageNet-Val 이미지의 2.67%가 중복되어 있지만, LAION-400M에는 0.14%만 중복된다.
Quotes
"CLIP의 뛰어난 제로샷 및 소샷 성능은 웹 스케일 데이터셋인 LAION의 규모와 다양성에 기인하는 것으로 여겨져 왔다."
"LAION 데이터셋이 기존 OOD 벤치마크와 유사한 샘플을 많이 포함하고 있어, CLIP의 높은 성능이 단순히 훈련 데이터와 테스트 데이터의 유사성에 기인할 수 있다."