이 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 방법을 제안한다. 기존에는 사람이 작성한 추론 과정(rationale)을 활용하는 것이 효과적이었지만, 이를 확보하는 것이 비용이 많이 들고 확장성이 낮다는 문제가 있었다.
이에 저자들은 SELF-EXPLORE라는 방법을 제안한다. SELF-EXPLORE에서는 LLM 자체가 자신이 생성한 추론 과정에서 첫 번째 잘못된 단계(first pit)를 찾아내고, 이를 세부적인 보상 신호로 활용하여 모델을 개선한다.
실험 결과, SELF-EXPLORE는 GSM8K와 MATH 데이터셋에서 기존 감독 학습 방식 대비 각각 11.57%와 2.89% 성능 향상을 보였다. 또한 단순히 최종 답안의 정확성만을 활용하는 것보다 각 단계별 정확성을 고려하는 것이 더 효과적임을 확인했다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Hyeonbin Hwa... о arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10346.pdfГлибші Запити