본 논문은 MLLM의 비디오 내 객체 인식 능력을 탐구하는 연구이다. 기존 MLLM은 정지 영상에서의 객체 인식 작업에 뛰어난 성능을 보였지만, 비디오 내 객체 추적 등의 작업에는 한계가 있었다. 이를 해결하기 위해 저자들은 다음과 같은 접근을 취했다.
ElysiumTrack-1M이라는 대규모 비디오 데이터셋을 구축하였다. 이 데이터셋은 객체 박스와 설명이 포함된 127만 개의 비디오 프레임으로 구성되어 있다. 이를 통해 MLLM의 비디오 내 객체 인식 능력을 학습할 수 있었다.
토큰 압축 모델인 T-Selector를 제안하였다. T-Selector는 MLLM이 더 많은 프레임을 처리할 수 있도록 하면서도 성능 저하를 최소화한다.
기존 객체 추적 작업과 달리, 언어 표현을 활용하여 객체를 추적하는 Referring Single Object Tracking (RSOT) 작업과 비디오 내 객체 설명을 생성하는 Video Referring Expression Generation (Video-REG) 작업을 새롭게 정의하였다.
실험 결과, Elysium은 이미지 그라운딩, 비디오 질문 답변, 객체 추적 등 다양한 작업에서 우수한 성능을 보였다. 이를 통해 MLLM이 비디오 내 객체 인식 작업에 효과적으로 활용될 수 있음을 입증하였다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询