텍스트 지식 임베딩(TKE)을 활용하여 클래스 수준의 텍스트 지식을 클래스 인식 프롬프트로 매핑함으로써, 비주얼-언어 모델의 일반화 및 식별 능력을 향상시킬 수 있다.
CounterCurate는 대조적 및 생성 다중 모달 모델의 비주얼-언어 복합 추론 능력을 종합적으로 향상시키는 프레임워크이다. 특히 물리적 기반 추론(계수 및 위치 이해)의 소홀과 고성능 텍스트 및 이미지 생성 모델을 활용한 의미론적 반사실 미세 조정의 잠재력을 해결한다.
본 연구는 대규모 언어 모델과 이미지 생성 모델을 활용하여 효율적이고 효과적인 비주얼-언어 모델 학습을 위한 합성 이미지-텍스트 쌍을 생성하는 새로운 접근법을 제안한다.