본 연구는 비디오-언어 정렬을 위한 VidLA 접근법을 제안한다. 이는 단기 및 장기 시간적 의존성을 모두 포착하고 기존 이미지-텍스트 기반 사전 학습 모델을 활용할 수 있는 단순한 네트워크 아키텍처를 사용한다. 또한 대규모 의미적으로 정렬된 비디오-언어 데이터셋을 구축하기 위해 대형 언어 모델을 활용한다.