웹 규모의 이미지-텍스트 데이터를 활용하여 비전 모델을 효율적으로 사전 학습하는 새로운 방법을 제안하였다. 기존 대조 학습 방식과 달리 분류 문제로 재정의함으로써 학습 속도를 2.7배 향상시키면서도 다양한 비전 태스크에서 CLIP 수준의 성능을 달성하였다.