Core Concepts
다중 모달 대형 언어 모델의 시각적 이해 능력 향상을 통해 다중 모달 수학 추론 성능을 크게 개선할 수 있다.
Abstract
이 논문은 다중 모달 대형 언어 모델(MLLM)의 다중 모달 수학 추론 능력 향상을 위한 새로운 접근법을 제안한다. 기존 방법들은 수학적 추론 능력 향상에 초점을 맞추었지만, 시각적 이해 능력 부족으로 인한 한계가 있었다.
저자들은 VCAR(Visual Comprehension in Addition to Reasoning)이라는 2단계 훈련 파이프라인을 제안한다. 첫 번째 단계에서는 이미지 설명 생성 작업을 통해 시각적 이해 능력을 향상시킨다. 두 번째 단계에서는 이 설명을 활용하여 수학적 추론 능력을 향상시킨다.
실험 결과, VCAR는 기존 방법들에 비해 전반적으로 우수한 성능을 보였으며, 특히 시각적 이해가 중요한 문제 유형에서 큰 성능 향상을 보였다. 이는 시각적 이해 능력 향상이 다중 모달 수학 추론 성능 향상의 핵심 요소임을 보여준다.
Stats
그릴드 스테이크의 가격은 $13이다.
버섯 피자의 가격은 $11이다.
그릴드 스테이크와 버섯 피자의 총 가격은 $13 + $11 = $24이다.
Quotes
"Open-source multimodal large language models (MLLMs), exemplified by models such as LLaVA (Liu et al., 2023b) and Mini-GPT4 (Zhu et al., 2023), has showcased impressive reasoning capabilities across tasks involving both textual and visual inputs such as visual question answering (Nam et al., 2017; Guo et al., 2023) and multimodal dialogue (Li and Tajbakhsh, 2023). Despite these advancements, when addressing a more complex task of multimodal mathematical reasoning (Lu et al., 2023a), these open-source models are far lagged behind proprietary MLLMs like GPT-4V(ision) (OpenAI) and Gemini-Pro (Reid et al., 2024)."
"To address the aforementioned issue, we propose to improve the multimodal mathematical reasoning ability of MLLMs by emphasizing the importance of visual comprehension training. We introduce a novel two-step training pipeline that highlights Vsual Comprehension training in Addition to mathematical Reasoning learning, dubbed as VCAR."