대형 언어 모델(LLM)의 단계적 추론 능력을 소형 언어 모델(SLM)에 전달하고, 선호도 최적화 기법을 통해 SLM의 자기 개선을 달성하여 LLM과 SLM 간의 추론 능력을 정렬하는 방법을 제안한다.