본 연구는 비디오-언어 정렬을 위한 VidLA 접근법을 제안한다. 기존 비디오-언어 정렬 방법의 두 가지 주요 한계를 해결하고자 한다.
첫째, 기존 방법은 단기 및 장기 시간적 의존성을 모두 포착하지 못하고 복잡한 계층적 딥 네트워크 아키텍처를 사용하여 기존 사전 학습된 이미지-텍스트 기반 모델과 통합하기 어려웠다. 이를 해결하기 위해 본 연구는 단순한 두 타워 아키텍처를 사용하고 다양한 시간적 해상도의 데이터 토큰을 활용하여 비디오의 시간적 계층적 특성을 모델링한다.
둘째, 기존 연구는 의미적으로 정렬된 대규모 비디오-언어 학습 데이터의 부족으로 어려움을 겪었다. 이를 해결하기 위해 본 연구는 대형 언어 모델을 활용하여 현재 최대 규모의 비디오-언어 데이터셋을 구축하고 시각적 접지를 향상시켰다. 또한 기존 데이터셋과 달리 다양한 길이의 비디오 클립을 포함하여 계층적 시간 데이터 토큰이 다양한 시간 척도에서 더 나은 표현을 학습할 수 있도록 했다.
전반적인 실험 결과, 제안된 VidLA 접근법은 다양한 검색 벤치마크에서 최신 기술을 능가하며, 특히 더 긴 비디오에서 우수한 성능을 보인다. 또한 분류 벤치마크에서도 경쟁력 있는 성능을 보인다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Mamshad Naye... às arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.14870.pdfPerguntas Mais Profundas