본 논문은 CLIP 및 GPT-2와 같은 사전 학습된 모델을 활용하여 다양한 데이터 구성에서 효과적으로 이미지 캡셔닝을 수행하는 새로운 접근법인 TIPCap을 제안한다. TIPCap은 멀티 변량 가우시안 분포를 기반으로 한 매핑 모듈과 대화형 프롬프트 모듈을 통해 성능을 향상시킨다.