Завантажити Linnk AI
•
Помічник з досліджень
>
Увійти
ідея
-
언어 모델의 추론 능력 향상
자기 탐색을 통해 실수 방지하기: 세부 보상을 활용한 언어 모델의 추론 능력 향상
언어 모델의 추론 능력을 향상시키기 위해 모델 자체가 생성한 부정확한 단계를 식별하고 이를 활용하여 세부적인 보상 신호를 제공하는 방법을 제안한다.
1