Core Concepts
다단계 수학 추론 문제에서 중간 단계의 정확성보다는 최종 답안의 정확성을 우선시하는 결과 감독 가치 모델을 제안한다. 이를 통해 중간 단계의 정확성 레이블링에 드는 비용을 절감하면서도 우수한 성능을 달성할 수 있다.
Abstract
이 논문은 다단계 수학 추론 문제에서 발생하는 오류 전파 문제를 해결하기 위한 방법을 제안한다. 기존의 접근법은 중간 단계의 정확성을 평가하는 보상 모델(reward model)을 사용했지만, 이는 최종 답안의 정확성을 충분히 고려하지 못한다는 한계가 있다.
이에 저자들은 결과 감독 가치 모델(Outcome-supervised Value Model, OVM)을 제안한다. OVM은 중간 단계의 정확성보다는 최종 답안의 정확성을 우선시하는 가치 모델이다. 저자들은 이론적으로 결과 감독이 가치 모델을 학습하는 데 효과적임을 입증하였다.
실험 결과, OVM은 GSM8K와 Game of 24 데이터셋에서 기존 모델들을 능가하는 성능을 보였다. 특히 GSM8K에서 OVM-7B 모델은 13B 파라미터 이하의 모델 중 최고 성능을 달성했다. 또한 Game of 24에서 OVM은 기존 방식 대비 큰 폭의 성능 향상을 보였다.
이 연구는 다단계 추론 문제에서 결과 감독이 가치 모델 학습에 효과적임을 보여주며, 이를 활용한 OVM이 기존 접근법을 뛰어넘는 성능을 달성할 수 있음을 입증했다.
Stats
다단계 수학 추론 문제에서 오류 전파로 인한 정확성 저하가 큰 문제이다.
중간 단계의 정확성을 평가하는 보상 모델(reward model)은 최종 답안의 정확성을 충분히 고려하지 못한다.
결과 감독 가치 모델(OVM)은 중간 단계의 정확성보다 최종 답안의 정확성을 우선시하며, 이를 통해 우수한 성능을 달성할 수 있다.
OVM-7B 모델은 GSM8K 데이터셋에서 13B 파라미터 이하 모델 중 최고 성능을 보였다.
Game of 24 데이터셋에서 OVM은 기존 방식 대비 큰 폭의 성능 향상을 보였다.
Quotes
"Large language models (LLMs) often struggle with maintaining accuracy throughout multiple reasoning steps, especially in mathematical reasoning where an error in earlier steps can propagate to subsequent ones and it ultimately leading to an incorrect answer."
"We argue that in guided decoding, assessing the potential of an incomplete reasoning path can be more advantageous than simply ensuring per-step correctness, as the former approach leads towards a correct final answer."
"Inspired by the findings that outcome supervision for guided decoding essentially acts as a value model, we propose Outcome-supervised Value Model (OVM) that employs outcome supervision for training a value model, which prioritizes steps that lead to accurate conclusions."