CICA는 CLIP의 제로샷 학습 기능을 향상시키는 새로운 프레임워크로, 문서 관련 텍스트 정보를 활용하는 혁신적인 '콘텐츠 모듈'과 CLIP의 텍스트 및 이미지 특징을 정렬하는 새로운 '결합 대조' 손실 함수를 제안한다.