혼합 샘플 데이터 증강 기법은 일부 클래스의 성능을 향상시키지만 다른 클래스의 성능을 저하시킨다.
구조화된 프롬프트 최적화 기법인 CK-CoOp는 기존 프롬프트 최적화 기법보다 우수한 일반화 성능을 보이며, 동시에 매개변수 수와 학습/추론 속도 면에서도 효율적이다.
본 연구는 비전-언어 모델의 일반화 성능을 향상시키기 위해 구조화된 문맥 최적화 기법을 제안한다. 이를 통해 모델의 일반화 능력을 높이면서도 학습 및 추론 효율성을 개선할 수 있다.
콜라주 프롬프팅은 여러 이미지를 하나의 시각적 프롬프트로 결합하여 GPT-4V가 동시에 여러 이미지를 인식할 수 있게 함으로써 비용을 크게 절감할 수 있다.