이 논문은 강력한 언어 모델의 수학 추론 능력을 향상시키기 위한 약한 모델에서 강한 모델로의 점진적 학습 프레임워크를 제안한다.
첫 번째 단계에서는 약한 모델이 생성한 데이터와 강한 모델이 자체적으로 생성한 데이터를 결합하여 선별적으로 학습 데이터를 구축한다. 이를 통해 강한 모델은 향상된 수학 추론 능력을 갖출 수 있다.
두 번째 단계에서는 강한 모델이 자체적으로 구축한 대조 샘플을 활용하여 약한 모델의 오류를 학습하고 회피할 수 있도록 한다.
실험 결과, 제안한 방법론은 기존의 약한 모델 데이터 전체를 활용하는 방식보다 GSM8K 데이터셋에서 26.99%p, MATH 데이터셋에서 3.19%p 더 높은 성능을 달성했다. 또한 어려운 MATH 문제에서도 강한 모델의 성능이 기존 최고 성능을 넘어섰다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문