핵심 개념
언어 모델은 프롬프트나 외부 도구 없이도 정확한 추론 단계에서 학습하여 추론 성능을 향상시킬 수 있다.
초록
이 논문은 언어 모델의 추론 성능을 향상시키기 위한 새로운 접근법인 LECO(Learning from Correctness)를 소개한다. LECO는 다음과 같은 특징을 가진다:
- 사람의 피드백이나 외부 도구 없이도 언어 모델 자체적으로 정확한 추론 단계에서 학습할 수 있다.
- 각 추론 단계의 신뢰도를 토큰 생성 로짓을 기반으로 측정하는 독특한 방법을 제안한다.
- 정확한 추론 단계를 점진적으로 누적하여 최종 답안에 접근하는 다단계 추론 패러다임을 사용한다.
실험 결과, LECO는 수학 추론, 상식 추론, 논리 추론 등 다양한 다단계 추론 과제에서 기존 방법 대비 성능 향상과 토큰 소비 감소를 달성했다. 특히 수학 추론 과제에서 두드러진 성능 향상을 보였다.
통계
언어 모델은 프롬프트나 외부 도구 없이도 정확한 추론 단계에서 학습하여 추론 성능을 향상시킬 수 있다.
LECO는 다단계 추론 과제에서 기존 방법 대비 성능 향상과 토큰 소비 감소를 달성했다.
LECO는 수학 추론 과제에서 특히 두드러진 성능 향상을 보였다.
인용구
"언어 모델은 프롬프트나 외부 도구 없이도 정확한 추론 단계에서 학습하여 추론 성능을 향상시킬 수 있다."
"LECO는 다단계 추론 과제에서 기존 방법 대비 성능 향상과 토큰 소비 감소를 달성했다."
"LECO는 수학 추론 과제에서 특히 두드러진 성능 향상을 보였다."