이 연구는 대규모 언어 모델(LLM)의 수학 문제 해결 능력 향상을 목표로 한다. 저자들은 MathQuest라는 고등학교 수준의 수학 문제 데이터셋을 소개한다. 이 데이터셋은 다양한 수준의 복잡성과 개념을 포함하고 있다.
저자들은 이 데이터셋을 활용하여 LLaMA-2, WizardMath, MAmmoTH 모델을 fine-tuning하고 성능을 평가한다. 실험 결과, MAmmoTH-13B 모델이 가장 뛰어난 성능을 보였으며, NCERT 수학 문제를 해결하는 데 있어 강력하고 신뢰할 수 있는 기준선을 제시한다.
실험은 두 단계로 진행되었다. 첫 번째 단계에서는 원본 모델 가중치를 직접 로드하고 테스트 세트에 대한 추론을 수행했다. 두 번째 단계에서는 Math-401 데이터셋을 활용하여 모델을 fine-tuning했다. Math-401 데이터셋은 초기에 401개의 기본적인 수학 방정식과 결과로 구성되어 있었지만, 저자들은 이를 증강하여 더 복잡한 수식을 포함하도록 했다.
실험 결과, fine-tuning 후 모든 모델의 성능이 크게 향상되었다. 특히 13B 매개변수 모델이 7B 모델보다 높은 정확도를 보였다. MAmmoTH-13B 모델이 MathQuest 데이터셋에서 가장 높은 정확도(24.0%)를 달성하며 NCERT 수학 문제 해결을 위한 강력한 기준선으로 자리잡았다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究