이미지와 텍스트 간 개념 불일치를 식별하고 수정하는 이미지 기반 캡션 수정 학습 방법을 제안하여, 추가적인 레이블링 없이도 비전-언어 모델의 제로샷 추론 성능을 향상시킬 수 있다.
소량의 데이터로도 적대적 예제에 대한 적절한 텍스트 감독을 학습하여 비전-언어 모델의 강건성을 크게 향상시킬 수 있다.
웹 규모의 시간 연속 데이터셋을 활용하여 CLIP 모델을 지속적으로 학습하는 효율적인 방법을 제안한다. 기존 모델의 시간에 따른 성능 저하를 보여주고, 제한된 계산 예산 내에서 모델 성능을 유지하면서 지속적으로 학습할 수 있는 방법을 제시한다.