이 연구는 비디오 모달리티를 언어 모델(LLM)에 통합하는 새로운 방법을 제안한다. 기존 연구에서는 비디오 언어 모델(VideoLM)이나 다단계 기반 모델을 사용했지만, 이 연구에서는 단일 비전 언어 모델(VLM)만을 활용한다.
연구진은 비디오를 이미지 그리드로 변환하는 방법을 고안했다. 비디오의 여러 프레임을 격자 형태로 배치하여 시간 정보를 유지하면서도 단일 이미지 형태로 표현할 수 있다. 이렇게 만든 이미지 그리드를 VLM에 입력하면 비디오 이해 및 질문 답변이 가능하다.
실험 결과, 이 방법은 기존 방법보다 10개의 제로샷 비디오 질문 답변 벤치마크 중 9개에서 더 나은 성능을 보였다. 특히 긴 비디오에 대한 이해도가 크게 향상되었다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究