Core Concepts
대규모 언어 모델의 수학적 추론 능력을 종합적으로 평가하기 위해 초등학교 수학 개념과 문제를 포함하는 정밀 수학 평가 벤치마크를 제안한다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력을 종합적으로 평가하기 위해 FineMath라는 벤치마크를 제안한다. FineMath는 다음과 같은 특징을 가지고 있다:
- 초등학교 수학 교육과정의 주요 개념을 포함하는 17개 유형의 수학 문제로 구성되어 있다.
- 각 유형의 문제는 난이도 수준(1단계, 2단계, 3단계 이상)에 따라 구분되어 있다.
- 각 문제에 대한 추론 과정과 정답이 수작업으로 정의되어 있다.
이를 통해 LLM의 수학적 개념 이해 정확도, 추론 능력, 종합적 문제 해결 능력을 평가할 수 있다.
실험 결과, GPT-4와 GPT-3.5-Turbo가 가장 우수한 성능을 보였다. 중국 LLM 중에서는 MathGLM-10B, MathGLM-335M, ChatGLM2-6B, Baichuan2-7B-Chat 등이 40% 이상의 정확도를 달성했다. 그러나 Moss-SFT-16B와 Baichuan-7B는 10% 미만의 낮은 성능을 보였다.
추가로 평가 과정과 방법에 대한 분석을 수행했다. 프롬프트와 평가 방식(생성 vs 선택)에 따라 모델의 성능이 크게 달라질 수 있음을 확인했다. 이는 LLM의 수학적 추론 능력을 공정하고 효과적으로 평가하기 위해서는 이러한 요인들을 고려해야 함을 시사한다.
Stats
초등학교 수학 교육과정의 주요 개념을 포함하는 17개 유형의 수학 문제로 구성되어 있다.
각 유형의 문제는 난이도 수준(1단계, 2단계, 3단계 이상)에 따라 구분되어 있다.
전체 1,584개의 문제로 구성되어 있다.
Quotes
"To thoroughly assess the mathematical reasoning abilities of Large Language Models (LLMs), we need to carefully curate evaluation datasets covering diverse mathematical concepts and mathematical problems at different difficulty levels."
"FineMath is created to cover the major key mathematical concepts taught in elementary school math, which are further divided into 17 categories of math word problems, enabling in-depth analysis of mathematical reasoning abilities of LLMs."
"All the 17 categories of math word problems are manually annotated with their difficulty levels according to the number of reasoning steps required to solve these problems."