이 연구는 이미지 데이터셋에서 사전 학습된 비전-언어 모델을 비디오 도메인으로 효과적으로 적응시키는 방법을 제안합니다. 이를 통해 수백만 개의 비디오에 대한 고품질의 의사 캡션을 생성할 수 있습니다.