本論文は、多段階の数学推理問題に取り組むための新しいアプローチであるOVMを提案している。
まず、著者らは、従来の報酬ベースのアプローチ(各段階の正解性を評価する)と価値ベースのアプローチ(最終的な正解の可能性を評価する)の違いを分析する。その上で、結果監督(最終答えの正解性のみを考慮)が価値モデルの学習に本質的に適していることを理論的に示す。
次に、OVMの具体的な方法を説明する。OVMは、最終答えの正解性に基づいて価値モデルを学習する。これにより、各段階の正解性を手動で注釈する必要がなく、より効率的で拡張性の高いアプローチとなる。
実験では、GSM8KとGame of 24の2つの数学推理データセットでOVMの性能を評価する。OVMは、GPT-4やコード実行を使わずに、13B以下のパラメータのモデルでも、従来の最先端手法を上回る性能を示す。特に、Game of 24では、OVMが大幅な精度向上を実現している。
以上より、OVMは、多段階の数学推理問題において、効果的な価値推定を可能にし、従来手法を上回る性能を発揮することが示された。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы