核心概念
기존 데이터셋의 한계를 극복하고 언어 모델의 추론 능력을 향상시키기 위해, 모델 자체가 자동으로 추론 과정을 생성하고 이를 활용하여 강화 학습을 수행하는 방법을 제안한다.
摘要
이 논문은 언어 모델의 추론 능력 향상을 위한 새로운 방법인 "자기 동기화 학습"을 제안한다. 기존 데이터셋의 한계로 인해 추론 과정이 포함된 고품질 데이터가 부족한 문제를 해결하고자 한다.
- 추론 과정 생성:
- 모델 자체가 기존 데이터셋에서 다양한 추론 과정을 자동으로 생성한다.
- 정답을 도출하는 추론 과정과 오답을 도출하는 추론 과정을 구분하여 수집한다.
- 모델 학습:
- 수집된 추론 과정 데이터를 활용하여 감독 학습 모델을 학습시킨다.
- 추론 과정의 품질을 평가하는 보상 모델을 학습시킨다.
- 감독 학습 모델과 보상 모델을 활용하여 강화 학습을 수행한다.
실험 결과, 제안 방법을 통해 다양한 추론 과제에서 기존 모델 대비 성능이 크게 향상되었다. 특히 소규모 모델인 Llama2 7B가 일부 과제에서 대규모 모델인 text-davinci-002를 능가하는 성과를 보였다.
统计
정답을 도출하는 추론 과정은 정답을 더 잘 설명할 수 있다.
오답을 도출하는 추론 과정은 논리적 오류가 있다.
引用
정답을 도출하는 추론 과정이 오답을 도출하는 추론 과정보다 우수하다.
보상 모델의 점수가 높을수록 추론 과정의 품질이 높다.