이 연구는 대규모 언어 모델(LLM)의 수학 문제 해결 능력 향상을 목표로 한다. 저자들은 MathQuest라는 고등학교 수준의 수학 문제 데이터셋을 소개한다. 이 데이터셋은 다양한 수준의 복잡성과 개념을 포함하고 있다.
저자들은 이 데이터셋을 활용하여 LLaMA-2, WizardMath, MAmmoTH 모델을 fine-tuning하고 성능을 평가한다. 실험 결과, MAmmoTH-13B 모델이 가장 뛰어난 성능을 보였으며, NCERT 수학 문제를 해결하는 데 있어 강력하고 신뢰할 수 있는 기준선을 제시한다.
실험은 두 단계로 진행되었다. 첫 번째 단계에서는 원본 모델 가중치를 직접 로드하고 테스트 세트에 대한 추론을 수행했다. 두 번째 단계에서는 Math-401 데이터셋을 활용하여 모델을 fine-tuning했다. Math-401 데이터셋은 초기에 401개의 기본적인 수학 방정식과 결과로 구성되어 있었지만, 저자들은 이를 증강하여 더 복잡한 수식을 포함하도록 했다.
실험 결과, fine-tuning 후 모든 모델의 성능이 크게 향상되었다. 특히 13B 매개변수 모델이 7B 모델보다 높은 정확도를 보였다. MAmmoTH-13B 모델이 MathQuest 데이터셋에서 가장 높은 정확도(24.0%)를 달성하며 NCERT 수학 문제 해결을 위한 강력한 기준선으로 자리잡았다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Avinash Anan... lúc arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13099.pdfYêu cầu sâu hơn