Core Concepts
LLM이 실수로부터 학습하면 수학 문제 해결 능력이 향상된다.
Abstract
이 연구는 LLM(Large Language Model)이 실수로부터 학습하여 수학 문제 해결 능력을 향상시킬 수 있는지 탐구한다.
주요 내용은 다음과 같다:
실수-교정 데이터 쌍을 생성하는 방법을 제안한다. 다양한 LLM을 활용하여 부정확한 추론 경로를 수집하고, GPT-4를 "교정기"로 사용하여 실수를 식별하고 교정하는 정보를 생성한다.
실수-교정 데이터를 활용하여 LLM을 fine-tuning하는 LEMA(Learning from Mistakes) 방법을 제안한다. LEMA는 CoT(Chain-of-Thought) 데이터 fine-tuning 방법보다 우수한 성능을 보인다.
실수-교정 데이터 확장을 위한 교정 중심 진화 전략을 제안한다. 이 전략은 일반적인 진화 전략보다 LEMA의 성능을 더 향상시킨다.
실험 결과 및 분석을 통해 LLM이 실수로부터 학습할 수 있음을 입증한다. 특히 CoT 데이터와 실수-교정 데이터의 효과가 비균질적임을 확인한다.
Stats
Tina는 시간당 $18.00를 받는다.
8시간 이상 근무하면 초과 근무 수당을 받는데, 이는 시간당 임금 + 시간당 임금의 1/2이다.
Tina는 5일 동안 매일 10시간씩 근무했다.
Quotes
"실수는 발견의 문이다." - James Joyce