언어 모델이 인간 선호도 데이터를 활용하여 자신의 응답 품질을 암묵적으로 향상시킬 수 있는 방법을 제안한다.
대화형 시연을 통해 작은 언어 모델에 자기 개선 능력을 배양하여 수학 및 추론 과제의 성능을 향상시킬 수 있다.