본 논문은 대규모 언어 모델(LLM)과 비전 모델을 통합하여 멀티모달 기반 비디오 이해 모델을 개발하는 연구이다. 기존 모델들은 비디오 프레임 수가 제한적이거나 GPU 메모리 사용량이 많아 장기 비디오 이해에 어려움이 있었다. 이를 해결하기 위해 MA-LMM은 비디오 프레임을 순차적으로 처리하고 과거 정보를 메모리 뱅크에 저장하는 방식을 제안한다.
구체적으로 MA-LMM은 다음과 같은 특징을 가진다:
이를 통해 MA-LMM은 장기 비디오 이해, 비디오 질문 답변, 비디오 캡셔닝 등 다양한 비디오 이해 태스크에서 SOTA 성능을 달성했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Bo He,Hengdu... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05726.pdfDeeper Inquiries