Core Concepts
기호적 사슬 사고 증류(SCoTD)를 통해 충분히 작은 언어 모델(125M-1.3B 매개변수)도 단계별 추론 능력을 습득할 수 있다.
Abstract
이 논문은 작은 언어 모델이 단계별 추론(chain-of-thought) 능력을 습득할 수 있는 방법인 기호적 사슬 사고 증류(Symbolic Chain-of-Thought Distillation, SCoTD)를 제안한다. SCoTD는 대규모 언어 모델(GPT-3)에서 샘플링한 다수의 추론 과정을 작은 언어 모델(OPT)에 전이하는 방식으로 작동한다.
실험 결과, SCoTD를 통해 작은 언어 모델은 다음과 같은 성과를 거둘 수 있었다:
지도 학습 및 소수 샷 학습 환경에서 성능 향상
특히 어려운 문제 세트에서 큰 성능 향상
인간 평가 결과, 작은 모델의 추론 과정이 대규모 모델의 추론 과정과 유사한 수준으로 평가됨
또한 이 논문은 추론 과정 샘플의 다양성, 교사 모델의 확률, 입력의 개방성 등이 작은 모델의 성능 향상에 어떤 영향을 미치는지 분석하였다.
Stats
작은 모델(OPT-1.3B)의 CommonsenseQA 정확도가 SCoTD 적용 후 20.5%에서 67.0%로 향상되었다.
작은 모델(OPT-1.3B)의 QuaRel 정확도가 SCoTD 적용 후 9.7%에서 83.8%로 향상되었다.
작은 모델(OPT-1.3B)의 OpenBookQA 정확도가 SCoTD 적용 후 2.8%에서 67.0%로 향상되었다.
Quotes
"SCoTD는 충분히 작은 언어 모델(125M-1.3B 매개변수)도 단계별 추론 능력을 습득할 수 있게 한다."
"SCoTD를 통해 작은 모델의 성능이 특히 어려운 문제 세트에서 크게 향상되었다."
"인간 평가 결과, SCoTD를 거친 작은 모델의 추론 과정이 대규모 모델의 추론 과정과 유사한 수준으로 평가되었다."