본 연구는 대규모 언어 모델(LLM)의 수학 문제 해결 능력 향상을 위한 새로운 접근법인 자기 비평 파이프라인을 소개한다. 기존의 강화 학습 기반 접근법은 언어 생성 능력은 향상시키지만 수학 능력을 저하시키는 문제가 있었다. 반면 수학 전문화 모델은 언어 능력을 해칠 수 있었다.
자기 비평 파이프라인은 모델 자체에서 생성된 피드백 신호를 활용하여 언어와 수학 능력을 동시에 향상시킨다. 이 방법은 두 단계로 구성된다:
거부 미세 조정(Rejective Fine-tuning, RFT): 자기 비평 모델의 피드백을 기반으로 부적절한 응답을 거부하고 정확한 응답을 선별하여 모델을 미세 조정한다.
직접 선호도 최적화(Direct Preference Optimization, DPO): 자기 비평 모델을 활용하여 정답과 오답 쌍을 생성하고, 이를 통해 모델을 직접 최적화한다.
실험 결과, 이 방법을 적용한 ChatGLM-32B 모델은 기존 모델 대비 수학 문제 해결 능력이 크게 향상되었으며, 언어 능력도 유지되었다. 또한 MATHUSEREVAL이라는 새로운 벤치마크 데이터셋을 개발하여 실제 사용자 요구에 부합하는 수학 문제 해결 능력을 평가하였다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询