본 연구는 GPT-4, GPT-4V, Claude 등 최신 대형 언어 및 멀티모달 모델의 기하학 계산 능력을 엄격하게 평가하기 위해 MM-MATH 데이터셋을 개발했다. 이 데이터셋은 9학년 수준의 복잡성과 요구사항을 반영하는 5,929개의 정교하게 구축된 기하학 문제로 구성되어 있다. 분석 결과, 현재 최첨단 멀티모달 모델들도 이미지에서 기하학적 정보를 정확하게 해석하는 데 어려움을 겪고 있으며, 이는 전체 오류의 60% 이상을 차지하고 있다. 이를 통해 현재 멀티모달 모델의 능력과 인간 수준의 숙련도 사이에 상당한 격차가 존재함을 밝혀냈다.
심층 강화 학습 프레임워크를 통해 보조 구성 요소를 자동으로 추가하여 기하학 문제를 효율적으로 해결할 수 있다.