이 논문은 대형 언어 모델(LLM)의 강력한 시퀀스 모델링 능력을 활용하여 비디오 이해 성능을 향상시키는 ST-LLM 모델을 제안한다.
주요 내용은 다음과 같다:
기존 비디오 LLM 모델들은 비디오 내 시간적 정보를 효과적으로 모델링하는 데 어려움을 겪었다. 이에 ST-LLM은 모든 공간-시간 토큰을 LLM 내부에 직접 입력하여 LLM의 시퀀스 모델링 능력을 활용한다.
이를 위해 동적 마스킹 전략과 마스크된 비디오 모델링 목적함수를 도입하여 입력 토큰의 길이를 줄이고 다양한 길이의 비디오에 대한 강건성을 높였다.
특히 긴 비디오의 경우 글로벌-로컬 입력 모듈을 설계하여 효율성과 효과성의 균형을 이루었다.
실험 결과, ST-LLM은 기존 비디오 LLM 모델들을 크게 능가하며, 특히 시간적 이해가 중요한 지표에서 두드러진 성능 향상을 보였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ruyang Liu,C... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00308.pdfYêu cầu sâu hơn