비전-언어 모델을 보상 모델로 활용하여 기존 이미지 캡셔닝 모델을 강화학습으로 미세 조정하여 더 자세하고 포괄적인 설명을 생성할 수 있다.
본 논문은 CLIP 및 GPT-2와 같은 사전 학습된 모델을 활용하여 다양한 데이터 구성에서 효과적으로 이미지 캡셔닝을 수행하는 새로운 접근법인 TIPCap을 제안한다. TIPCap은 멀티 변량 가우시안 분포를 기반으로 한 매핑 모듈과 대화형 프롬프트 모듈을 통해 성능을 향상시킨다.
이 연구는 뉴스 보도 시나리오에서 이미지 캡셔닝 기술을 활용하여 자동화된 뉴스 콘텐츠 생성을 향상시키고 정보 전달을 더욱 세밀하게 할 수 있는 방법을 제시한다.