Core Concepts
자동 생성된 이미지 캡션을 활용하여 레이블이 없는 비디오에서 텍스트-비디오 검색 모델을 학습할 수 있다.
Abstract
이 연구는 레이블이 없는 비디오에서 텍스트-비디오 검색 모델을 학습하는 새로운 접근법을 제안한다. 기존의 텍스트-비디오 검색 모델은 수동으로 레이블링된 비디오 데이터셋을 사용하여 학습되었지만, 이는 비용이 많이 들고 확장성이 낮다.
이 연구에서는 이미지 캡션 모델을 활용하여 레이블이 없는 비디오 프레임에 자동으로 캡션을 생성하고, 이를 활용하여 텍스트-비디오 검색 모델을 학습한다. 구체적으로:
두 개의 이미지 캡션 모델(ClipCap, BLIP)을 사용하여 비디오 프레임에 캡션을 생성한다.
생성된 캡션 중 가장 적합한 캡션을 선별하기 위해 CLIPScore 메트릭을 사용한다.
선별된 캡션들을 활용하여 다중 캡션 쿼리 스코어링 기법으로 텍스트-비디오 검색 모델을 학습한다.
다양한 데이터셋을 조합하여 학습함으로써 성능을 향상시킨다.
실험 결과, 제안 방법은 CLIP 기반 강력한 베이스라인 모델을 능가하는 성능을 보였다. 이는 자동 생성된 캡션이 효과적인 학습 신호로 활용될 수 있음을 보여준다.
Stats
비디오 프레임에 자동 생성된 캡션은 비디오의 내용을 잘 반영하고 있다.
다중 캡션 쿼리 스코어링 기법은 단일 캡션 사용보다 성능 향상에 도움이 된다.
다양한 데이터셋을 조합하여 학습하면 개별 데이터셋 학습보다 성능이 향상된다.
Quotes
"자동 생성된 이미지 캡션을 활용하여 레이블이 없는 비디오에서 텍스트-비디오 검색 모델을 학습할 수 있다."
"제안 방법은 CLIP 기반 강력한 베이스라인 모델을 능가하는 성능을 보였다."
"다중 캡션 쿼리 스코어링 기법은 단일 캡션 사용보다 성능 향상에 도움이 된다."