Concepts de base
대화형 시연을 통해 작은 언어 모델에 자기 개선 능력을 배양하여 수학 및 추론 과제의 성능을 향상시킬 수 있다.
Résumé
이 논문은 대화형 시연을 통해 작은 언어 모델에 자기 개선 능력을 배양하는 TRIPOST 알고리즘을 제안한다.
먼저, 작은 모델 Mθ가 초기 시도를 생성하면 피드백 모듈 FBK와 개선 모듈 IMP를 사용하여 Mθ의 시도를 편집하여 개선 궤적을 생성한다.
다음으로, 수집된 궤적을 필터링하고 재균형하여 훈련 데이터셋을 만든다.
마지막으로, 가중치 부여 지도 학습을 통해 Mθ를 훈련한다.
실험 결과, TRIPOST 훈련을 받은 모델은 기존 방법보다 수학 및 추론 과제에서 더 나은 성능을 보였다. 분석 결과, 작은 모델이 자신의 실수를 학습하고 수정하는 대화형 과정이 자기 개선 능력 배양에 핵심적이었다. 또한 항상 유용한 피드백과 개선을 생성하는 것이 직접 정답을 생성하는 것보다 더 어려운 것으로 나타났다.
Stats
작은 모델(LLaMA-7B)은 수학 및 추론 과제에서 큰 모델(Codex-175B)보다 더 많은 실수를 하고 다른 유형의 실수를 한다.
TRIPOST 훈련을 받은 모델은 직접 정답을 생성한 비율과 자기 개선을 통해 정답에 도달한 비율이 모두 증가했다.
Citations
"작은 모델에서 피드백을 생성하거나 개선을 생성하는 것을 배우는 것이 직접 정답을 생성하는 것보다 더 어려울 수 있다."
"작은 모델이 자신의 실수를 학습하고 수정하는 대화형 과정이 자기 개선 능력 배양에 핵심적이었다."