Core Concepts
많은 대규모 언어 모델들이 초등학교 수학 문제 해결에서 상당한 성능 저하를 보이며, 이는 데이터 오염으로 인한 것일 가능성이 높다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 초등학교 수학 문제 해결 능력을 면밀히 조사했다. 연구진은 GSM8k 벤치마크와 유사한 새로운 데이터셋 GSM1k를 구축했다. GSM1k는 GSM8k와 유사한 난이도 분포를 가지지만, 모델 학습에 사용되지 않은 데이터로 구성되어 있다.
연구 결과, 많은 LLM이 GSM1k에서 GSM8k 대비 최대 13%의 성능 저하를 보였다. 특히 Mistral과 Phi 모델군에서 일관된 과적합 경향이 관찰되었다. 이는 이들 모델이 GSM8k 데이터를 부분적으로 암기했기 때문으로 보인다.
그러나 최신 모델들, 특히 Gemini, GPT, Claude 등은 GSM8k와 GSM1k 간 성능 차이가 크지 않아 과적합 징조가 거의 없었다. 이는 충분히 강력한 모델은 기본적인 수학 추론 능력을 학습할 수 있음을 시사한다.
전반적으로 이 연구는 많은 LLM이 벤치마크 데이터에 오염되어 있음을 보여주며, 보다 엄격한 평가 방법이 필요함을 시사한다.
Stats
최악의 모델은 GSM8k 대비 GSM1k에서 13% 성능 저하를 보였다.
Mistral과 Phi 모델군은 대부분의 모델 버전에서 일관된 과적합 경향을 보였다.
모델의 GSM8k 데이터 생성 확률과 GSM8k-GSM1k 성능 차이 간 양의 상관관계(Spearman's r^2 = 0.32)가 관찰되었다.
Quotes
"많은 모델, 특히 최신 모델들은 GSM8k와 GSM1k 간 성능 차이가 크지 않아 과적합 징조가 거의 없었다."
"충분히 강력한 모델은 기본적인 수학 추론 능력을 학습할 수 있음을 시사한다."