대규모 언어 모델(LLM)은 장기 비디오 이해 벤치마크에서 우수한 성능을 달성하지만 높은 추론 비용이 소요된다. 본 연구에서는 자기회귀 LLM의 추론 속도를 높이는 likelihood selection 기법을 제안하고, 비디오 특정 정보를 자연어로 융합하는 멀티모달 비디오 이해(MVU) 프레임워크를 개발하여 장기 비디오 이해 및 세부 동작 인식 벤치마크에서 최신 성과를 달성한다.
텍스트 조건부 리샘플러(TCR) 모듈은 사전 학습된 시각 인코더와 대형 언어 모델을 사용하여 장기 비디오 시퀀스를 처리할 수 있습니다. TCR은 텍스트 조건에 따라 비디오에서 관련 시각 특징을 찾아내고 이를 언어 모델에 제공합니다.
본 연구는 기존 비디오 LLM의 한계를 극복하기 위해 키 프레임 기반의 새로운 접근법을 제안한다. 제안하는 Koala 모델은 비디오의 전반적인 맥락을 활용하여 개별 비디오 세그먼트와 세그먼트 간의 관계를 효과적으로 모델링할 수 있다.
본 연구는 기존 대규모 멀티모달 모델의 한계를 극복하고 장기 비디오 이해 능력을 향상시키기 위해 메모리 뱅크를 도입한 새로운 모델 MA-LMM을 제안한다.
LMM(Large Multimodal Models)은 짧은 비디오 이해 작업에서 뛰어난 성능을 보이지만 장기 비디오 이해에는 어려움을 겪는다. 이 논문은 시각적 문맥 창 확장을 통해 LMM을 장기 비디오 이해에 적용하는 새로운 방법을 제안한다.