핵심 개념
최근 대형 언어 모델은 수학적 추론과 정리 증명을 위한 엄격하고 형식적인 다단계 추론을 포함한 다양한 작업에서 중요한 진전을 보여주고 있습니다.
초록
ABSTRACT
대형 언어 모델은 수학적 추론과 정리 증명에 대한 진전을 보여줌
MUSTARD는 정리와 증명 데이터를 균일하게 합성하는 데이터 생성 프레임워크 소개
MUSTARDSAUCE 데이터 세트에 대한 상세한 분석 및 실험 수행
INTRODUCTION
대형 언어 모델은 수학 문제 해결 능력 향상에 유망한 능력을 보임
CoT 프롬프팅 및 코드 생성 능력을 활용하여 형식적 언어 및 외부 솔버를 활용한 엄격한 추론 결과 생성
RELATED WORKS
대형 언어 모델을 사용한 수학적 추론에 대한 선행 연구
대규모 수학 데이터 합성에 대한 이전 연구
MUSTARD
MUSTARD는 다단계 주석을 통해 다양하고 고품질의 수학 데이터 생성
MUSTARD는 개념 씨딩, 증명 생성, 증명 필터링 단계로 구성
EXPERIMENTS
MUSTARDSAUCE를 사용한 작은 규모 언어 모델의 성능 향상 평가
데이터 규모가 성능에 미치는 영향 조사
CONCLUSION
MUSTARD는 고품질 솔루션을 갖춘 수학 데이터 생성을 자동화
LLM과 Lean Prover를 활용하여 문제 설명, 비형식적 솔루션, 형식적 솔루션 생성
통계
MUSTARDSAUCE에는 5,866개의 유효한 데이터 포인트가 포함되어 있음
Llama 2-7B는 자동 정리 증명에서 15.41%의 평균 상대 성능 향상을 달성
인용구
"MUSTARD는 다단계 주석을 통해 다양하고 고품질의 수학 데이터 생성"
"LLM과 Lean Prover를 활용하여 문제 설명, 비형식적 솔루션, 형식적 솔루션 생성"