이 연구는 대형 언어 모델(LM)의 추론 능력을 향상시키기 위해 작은 언어 모델(LM)을 활용하는 새로운 프레임워크인 "LM-Guided CoT"를 제안한다.
주요 내용은 다음과 같다:
작은 LM을 활용하여 입력에 대한 추론 과정(rationale)을 생성하고, 이를 대형 LM에 제공하여 최종 답변을 예측하는 방식으로 구성된다.
작은 LM의 추론 능력 향상을 위해 지식 증류(knowledge distillation)와 강화학습(reinforcement learning)을 활용한다.
추론 과정의 질적 측면을 8가지 측면(사실성, 관련성, 논리성, 일관성, 응집성, 유창성, 자연성, 가독성)에서 평가하고, 이를 강화학습의 보상 신호로 활용한다.
다중 홉 질문 답변 과제에 대한 실험 결과, LM-Guided CoT 방식이 기존 방식들에 비해 우수한 성능을 보였다. 특히 강화학습을 통해 추론 과정의 질이 향상되면서 답변 정확도도 개선되었다.
대형 LM의 추론 과정을 작은 LM으로 분리하여 관리하는 접근법은 자원 효율성과 유연성 측면에서 장점이 있다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문