CLIP의 뛰어난 제로샷 및 소샷 성능은 웹 규모의 데이터셋(LAION)에 기인하는 것으로 여겨지지만, 이는 LAION 데이터셋이 일반적인 OOD 벤치마크와 유사한 많은 샘플을 포함하기 때문일 수 있다. 이 가설을 검증하기 위해 OOD 벤치마크와 유사도가 ImageNet 수준인 LAION 데이터셋 부분을 재학습한 결과, CLIP의 전반적인 성능이 여전히 높게 유지되었다. 이는 높은 훈련-테스트 유사성만으로는 CLIP의 성능을 설명할 수 없으며, 데이터 분포의 다른 특성이 CLIP의 좋은 표현 학습에 기여한다는 것을 보여준다.
CLIP의 뛰어난 제로샷 및 소샷 성능은 웹 스케일 데이터셋인 LAION의 규모와 다양성에 기인하는 것으로 여겨져 왔다. 그러나 LAION 데이터셋이 기존 OOD 벤치마크와 유사한 샘플을 많이 포함하고 있어, CLIP의 높은 성능이 단순히 훈련 데이터와 테스트 데이터의 유사성에 기인할 수 있다는 가설을 제기한다.