이 논문은 상태 공간 모델을 활용하여 멀티모달 학습 과제를 해결하는 VL-Mamba 모델을 제안한다. VL-Mamba는 사전 학습된 Mamba 대형 언어 모델을 언어 모델로 사용하고, 비전 인코더와 멀티모달 커넥터로 구성된다. 멀티모달 커넥터에는 2D 비전 선택적 스캔 메커니즘이 포함되어 있어, 2D 비정형 비전 정보와 1D 순차 처리 능력 간의 격차를 해소한다. 실험 결과, VL-Mamba는 다양한 멀티모달 벤치마크에서 기존 모델들과 경쟁력 있는 성능을 보여주었다. 또한 언어 모델 변종, 비전 인코더, 멀티모달 커넥터 아키텍처, 스캔 메커니즘 등 다양한 요소에 대한 실험을 통해 VL-Mamba의 효과성을 검증하였다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yanyuan Qiao... : arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13600.pdfDaha Derin Sorular