核心概念
상태 공간 모델을 활용하여 멀티모달 학습 과제를 해결하는 VL-Mamba 모델을 제안한다. 이를 통해 기존 트랜스포머 기반 모델의 계산 복잡도 문제를 해결하고자 한다.
摘要
이 논문은 상태 공간 모델을 활용하여 멀티모달 학습 과제를 해결하는 VL-Mamba 모델을 제안한다. VL-Mamba는 사전 학습된 Mamba 대형 언어 모델을 언어 모델로 사용하고, 비전 인코더와 멀티모달 커넥터로 구성된다. 멀티모달 커넥터에는 2D 비전 선택적 스캔 메커니즘이 포함되어 있어, 2D 비정형 비전 정보와 1D 순차 처리 능력 간의 격차를 해소한다. 실험 결과, VL-Mamba는 다양한 멀티모달 벤치마크에서 기존 모델들과 경쟁력 있는 성능을 보여주었다. 또한 언어 모델 변종, 비전 인코더, 멀티모달 커넥터 아키텍처, 스캔 메커니즘 등 다양한 요소에 대한 실험을 통해 VL-Mamba의 효과성을 검증하였다.
統計資料
제안된 VL-Mamba 모델은 기존 MobileVLM-3B 모델과 유사한 규모의 매개변수를 가지지만, ScienceQA-IMG, TextVQA, MME 벤치마크에서 더 나은 성능을 보였다.
VL-Mamba는 Vicuna-13B 모델보다 작은 규모의 Mamba-2.8B-Slimpj 언어 모델을 사용하지만, VQA-v2, MME, MM-Vet 벤치마크에서 더 나은 성능을 달성했다.
引述
"상태 공간 모델(SSM)은 순환 신경망(RNN)과 합성곱 신경망(CNN)의 장점을 결합한 것으로 볼 수 있다."
"Mamba는 입력 의존적 선택 메커니즘을 도입하여 관련 정보를 선택할 수 있게 하고, 하드웨어 최적화 알고리즘을 통해 효율적인 학습과 추론을 달성했다."