상세한 이미지를 생성하여 대규모 비전-언어 모델의 출력 길이를 늘려 에너지 소비와 지연 시간을 높일 수 있다.
제한된 데이터로도 CLIP 모델에 효과적인 백도어를 주입할 수 있는 새로운 메커니즘을 제안한다. 이를 위해 이미지와 텍스트 인코더 모두에 영향을 미치는 트리거 인식 프롬프트 학습 기법을 활용한다.