본 연구는 비디오-언어 정렬을 위한 VidLA 접근법을 제안한다. 기존 비디오-언어 정렬 방법의 두 가지 주요 한계를 해결하고자 한다.
첫째, 기존 방법은 단기 및 장기 시간적 의존성을 모두 포착하지 못하고 복잡한 계층적 딥 네트워크 아키텍처를 사용하여 기존 사전 학습된 이미지-텍스트 기반 모델과 통합하기 어려웠다. 이를 해결하기 위해 본 연구는 단순한 두 타워 아키텍처를 사용하고 다양한 시간적 해상도의 데이터 토큰을 활용하여 비디오의 시간적 계층적 특성을 모델링한다.
둘째, 기존 연구는 의미적으로 정렬된 대규모 비디오-언어 학습 데이터의 부족으로 어려움을 겪었다. 이를 해결하기 위해 본 연구는 대형 언어 모델을 활용하여 현재 최대 규모의 비디오-언어 데이터셋을 구축하고 시각적 접지를 향상시켰다. 또한 기존 데이터셋과 달리 다양한 길이의 비디오 클립을 포함하여 계층적 시간 데이터 토큰이 다양한 시간 척도에서 더 나은 표현을 학습할 수 있도록 했다.
전반적인 실험 결과, 제안된 VidLA 접근법은 다양한 검색 벤치마크에서 최신 기술을 능가하며, 특히 더 긴 비디오에서 우수한 성능을 보인다. 또한 분류 벤치마크에서도 경쟁력 있는 성능을 보인다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Mamshad Naye... lúc arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.14870.pdfYêu cầu sâu hơn