Core Concepts
멀티모달 대형 언어 모델의 비전 인코더 성능을 향상시키기 위해 다양한 비전 전문가들을 동적으로 선택하고 융합하는 MoVA 모델을 제안한다.
Abstract
이 논문은 멀티모달 대형 언어 모델(MLLM)의 비전 인코더 성능 향상을 위한 MoVA 모델을 제안한다.
먼저 저자들은 CLIP 비전 인코더와 다른 전문화된 비전 인코더들의 성능을 다양한 벤치마크에서 비교 분석한다. 이를 통해 각 비전 인코더가 특정 도메인에서는 우수한 성능을 보이지만, 다른 도메인에서는 성능이 저하되는 문제를 확인한다.
이를 해결하기 위해 저자들은 MoVA 모델을 제안한다. MoVA는 두 단계로 구성된다. 첫 번째 단계에서는 대형 언어 모델의 추론 능력을 활용하여 입력 이미지와 질문에 가장 적합한 비전 전문가들을 동적으로 선택한다. 두 번째 단계에서는 선택된 비전 전문가들의 지식을 효과적으로 융합하는 MoV-Adapter 모듈을 통해 향상된 시각 표현을 생성한다.
실험 결과, MoVA는 다양한 멀티모달 벤치마크에서 기존 최신 모델들을 뛰어넘는 성능을 보인다. 특히 문서 이해, 차트 이해, 의료 VQA 등 특정 도메인에서 두드러진 성능 향상을 보인다. 이는 MoVA가 다양한 비전 전문가들을 효과적으로 활용할 수 있음을 보여준다.
Stats
다양한 비전 전문가 모델들의 성능 비교 결과를 제시하고 있다.
멀티모달 벤치마크 데이터셋들의 성능 결과를 제시하고 있다.
Quotes
"As the key component in multimodal large language models (MLLMs), the ability of the visual encoder greatly affects MLLM's understanding on diverse image content."
"We found that there is still no single vision encoder that can dominate various image content understanding, e.g., the CLIP vision encoder leads to outstanding results on general image understanding but poor performance on document or chart content."
"To alleviate the bias of CLIP vision encoder, we first delve into the inherent behavior of different pre-trained vision encoders and then propose the MoVA, a powerful and novel MLLM, adaptively routing and fusing task-specific vision experts with a coarse-to-fine mechanism."