핵심 개념
멀티모달 대형 언어 모델(MLLM)의 시각적 수학 문제 해결 능력은 여전히 충분히 평가되고 이해되지 않고 있다. 이를 위해 MATHVERSE라는 종합적인 시각적 수학 벤치마크를 소개하여 MLLM의 진정한 다중 모달 수학적 추론 능력을 공정하고 심도 있게 평가한다.
초록
이 논문은 MATHVERSE라는 새로운 시각적 수학 벤치마크를 소개한다. MATHVERSE는 기존 벤치마크의 문제점을 해결하기 위해 설계되었다.
기존 벤치마크의 문제점:
- 텍스트 중복으로 인해 MLLM이 다이어그램을 진정으로 이해하지 않고도 문제를 해결할 수 있다.
- 최종 답안만으로 평가하는 것은 수학 문제 해결 과정을 충분히 평가하지 못한다.
- 수학 문제 해결 능력 평가에 특화되어 있지 않다.
MATHVERSE의 특징:
- 텍스트 정보를 단계적으로 제거하고 다이어그램 정보를 증가시켜 MLLM의 시각적 이해 능력을 평가한다.
- 추론 과정의 중간 단계를 평가하는 CoT(Chain-of-Thought) 평가 전략을 제안한다.
- 평면 기하, 입체 기하, 함수 등 수학 문제 해결에 특화된 문제들로 구성되어 있다.
실험 결과, 대부분의 기존 MLLM은 다이어그램을 이해하는 데 어려움을 겪고 텍스트에 크게 의존하는 것으로 나타났다. 반면 GPT-4V와 ShareGPT4V는 상대적으로 시각적 내용을 더 잘 이해하여 수학적 추론을 수행하는 것으로 나타났다.
통계
다이어그램 없이도 5% 이상 높은 정확도를 달성한 MLLM: Qwen-VL-Max (+5.1%), InternLM-XComposer2 (+5.6%)