大規模言語モデルは、多段階の数学推理において、初期の段階での誤りが後続の段階に伝播し、最終的な答えが正しくなくなるという課題に直面する。結果監督付き価値モデル(OVM)は、各段階の正解性ではなく、最終的な正解の可能性を重視することで、この問題に取り組む。
数学推理任务需要模型具有强大的推理能力,而数据选择和组合是关键影响因素。我们提出了一种考虑数据质量和多样性的选择策略QaDS,并探索了最优的数据组合,以提高数学推理任务的性能。