사전 학습된 멀티모달 모델인 CLIP을 활용하여 비디오 하이라이트 탐지 성능을 향상시킬 수 있다.
비디오 클립 내 객체 행동 정보를 추출하고 이를 활용하여 부사 유형을 인식하는 새로운 프레임워크를 제안한다.
본 논문은 MLLM을 활용하여 비디오 내 객체 수준의 인식 작업을 수행하는 Elysium 모델을 제안한다. Elysium은 기존 MLLM의 한계를 극복하고 비디오 내 객체 추적 및 설명 생성 작업을 수행할 수 있다.