기하학 문제 해결 능력 향상: 멀티모달 모델 평가를 위한 종합적인 벤치마크
본 연구는 GPT-4, GPT-4V, Claude 등 최신 대형 언어 및 멀티모달 모델의 기하학 계산 능력을 엄격하게 평가하기 위해 MM-MATH 데이터셋을 개발했다. 이 데이터셋은 9학년 수준의 복잡성과 요구사항을 반영하는 5,929개의 정교하게 구축된 기하학 문제로 구성되어 있다. 분석 결과, 현재 최첨단 멀티모달 모델들도 이미지에서 기하학적 정보를 정확하게 해석하는 데 어려움을 겪고 있으며, 이는 전체 오류의 60% 이상을 차지하고 있다. 이를 통해 현재 멀티모달 모델의 능력과 인간 수준의 숙련도 사이에 상당한 격차가 존재함을 밝혀냈다.