핵심 개념
이 연구는 이미지 데이터셋에서 사전 학습된 비전-언어 모델을 비디오 도메인으로 효과적으로 적응시키는 방법을 제안합니다. 이를 통해 수백만 개의 비디오에 대한 고품질의 의사 캡션을 생성할 수 있습니다.
초록
이 연구는 이미지 기반 비전-언어 모델을 비디오 도메인으로 효과적으로 적응시키는 방법을 제안합니다. 주요 내용은 다음과 같습니다:
-
비전 인코더와 언어 모델을 단계적으로 적응시킴:
- 첫 번째 단계에서는 비전 인코더를 미세 조정하고 언어 모델을 고정하여 비디오 캡션 데이터를 활용합니다.
- 두 번째 단계에서는 언어 모델을 미세 조정하고 비전 인코더를 고정하여 비디오 지시 데이터를 활용합니다.
-
적응된 비전-언어 모델을 사용하여 수백만 개의 웹 스크랩 비디오에 대한 의사 캡션을 생성합니다.
- 생성된 의사 캡션은 기존 방법보다 더 구체적이고 상세한 정보를 포함합니다.
- 의사 캡션 데이터를 활용하여 훈련된 비전-언어 이중 인코더 모델이 다양한 비디오 이해 벤치마크에서 최신 성과를 달성합니다.
-
실험 결과, 제안 방법으로 생성된 의사 캡션 데이터를 활용하면 기존 방법보다 비디오 이해 성능이 크게 향상됩니다.
통계
비디오 캡션 데이터셋 S-MiT에는 평균 18단어의 짧은 캡션이 포함되어 있습니다.
비디오 지시 데이터셋 VidLN에는 평균 85단어의 상세한 이벤트 설명이 포함되어 있습니다.
웹 스크랩 비디오 데이터셋 VideoCC와 InternVid에는 각각 약 710만 개와 1천만 개의 비디오가 포함되어 있습니다.
인용구
"이미지 이해에 큰 진전이 있었던 것은 대규모 고품질 이미지-텍스트 데이터셋 덕분이었습니다."
"비디오 주석 작업은 이미지보다 1~2 order 더 많은 시간이 소요됩니다."
"제안 방법으로 생성된 의사 캡션은 기존 방법보다 더 구체적이고 상세한 정보를 포함합니다."