大規模言語モデルは、多段階の数学推理において、初期の段階での誤りが後続の段階に伝播し、最終的な答えが正しくなくなるという課題に直面する。結果監督付き価値モデル(OVM)は、各段階の正解性ではなく、最終的な正解の可能性を重視することで、この問題に取り組む。