본 연구는 비디오 CLIP 모델의 장문 설명 이해 능력을 향상시키기 위한 VideoCLIP-XL 모델을 제안한다.
먼저, 대규모 VILD 데이터셋을 구축하였다. 이를 위해 다양한 데이터 소스에서 자동으로 (비디오, 장문 설명) 쌍을 수집하고 정제하는 시스템을 개발하였다.
다음으로, 텍스트 유사도 기반 주성분 매칭(TPCM) 기법을 도입하여 장문 설명 이해 능력을 향상시켰다. TPCM은 고차원 특징 공간의 분포 변화에 동적으로 적응할 수 있다.
또한 세부 정보 인지 설명 순위화(DDR)와 허구 인지 설명 순위화(HDR) 태스크를 새롭게 제안하였다. DDR은 세부적이고 정확한 설명에 높은 점수를 부여하도록 하고, HDR은 허구가 적은 설명에 높은 점수를 부여하도록 한다.
마지막으로, 장문 설명 순위화 벤치마크(LVDR)를 제안하여 모델의 장문 설명 이해 능력을 종합적으로 평가하였다.
실험 결과, VideoCLIP-XL은 기존 모델들에 비해 다양한 벤치마크에서 우수한 성능을 보였다. 특히 장문 설명 이해 능력 측면에서 큰 향상을 보였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문