核心概念
본 연구는 기존 대규모 멀티모달 모델의 한계를 극복하고 장기 비디오 이해 능력을 향상시키기 위해 메모리 뱅크를 도입한 새로운 모델 MA-LMM을 제안한다.
要約
본 논문은 대규모 언어 모델(LLM)과 비전 모델을 통합하여 멀티모달 기반 비디오 이해 모델을 개발하는 연구이다. 기존 모델들은 비디오 프레임 수가 제한적이거나 GPU 메모리 사용량이 많아 장기 비디오 이해에 어려움이 있었다. 이를 해결하기 위해 MA-LMM은 비디오 프레임을 순차적으로 처리하고 과거 정보를 메모리 뱅크에 저장하는 방식을 제안한다.
구체적으로 MA-LMM은 다음과 같은 특징을 가진다:
- 비주얼 메모리 뱅크와 쿼리 메모리 뱅크를 도입하여 과거 비디오 정보를 누적 저장하고 활용한다.
- 메모리 뱅크 압축 기법을 통해 메모리 사용량을 효율적으로 관리한다.
- 기존 대규모 멀티모달 모델에 플러그인 형태로 적용 가능하다.
이를 통해 MA-LMM은 장기 비디오 이해, 비디오 질문 답변, 비디오 캡셔닝 등 다양한 비디오 이해 태스크에서 SOTA 성능을 달성했다.
統計
비디오 프레임 수가 100개일 때 MA-LMM의 GPU 메모리 사용량은 19.1GB로, 기존 모델들에 비해 크게 감소했다.
引用
"우리는 비디오 프레임을 순차적으로 처리하고 과거 정보를 메모리 뱅크에 저장하는 방식을 제안한다."
"메모리 뱅크 압축 기법을 통해 메모리 사용량을 효율적으로 관리한다."