본 논문은 MLLM을 활용하여 비디오 내 객체 수준의 인식 작업을 수행하는 Elysium 모델을 제안한다. Elysium은 기존 MLLM의 한계를 극복하고 비디오 내 객체 추적 및 설명 생성 작업을 수행할 수 있다.