Core Concepts
大規模言語モデルは、多段階の数学推理において、初期の段階での誤りが後続の段階に伝播し、最終的な答えが正しくなくなるという課題に直面する。結果監督付き価値モデル(OVM)は、各段階の正解性ではなく、最終的な正解の可能性を重視することで、この問題に取り組む。
Abstract
本論文は、多段階の数学推理問題に取り組むための新しいアプローチであるOVMを提案している。
まず、著者らは、従来の報酬ベースのアプローチ(各段階の正解性を評価する)と価値ベースのアプローチ(最終的な正解の可能性を評価する)の違いを分析する。その上で、結果監督(最終答えの正解性のみを考慮)が価値モデルの学習に本質的に適していることを理論的に示す。
次に、OVMの具体的な方法を説明する。OVMは、最終答えの正解性に基づいて価値モデルを学習する。これにより、各段階の正解性を手動で注釈する必要がなく、より効率的で拡張性の高いアプローチとなる。
実験では、GSM8KとGame of 24の2つの数学推理データセットでOVMの性能を評価する。OVMは、GPT-4やコード実行を使わずに、13B以下のパラメータのモデルでも、従来の最先端手法を上回る性能を示す。特に、Game of 24では、OVMが大幅な精度向上を実現している。
以上より、OVMは、多段階の数学推理問題において、効果的な価値推定を可能にし、従来手法を上回る性能を発揮することが示された。
Stats
我々のOVM-7Bモデルは、13B以下のパラメータのモデルの中で最高の精度を達成した。
OVMは、Game of 24タスクにおいて、単純な生成モデルの11%の精度から78.7%まで大幅に精度を向上させた。
Quotes
「大規模言語モデルは、多段階の数学推理において、初期の段階での誤りが後続の段階に伝播し、最終的な答えが正しくなくなるという課題に直面する。」
「結果監督付き価値モデル(OVM)は、各段階の正解性ではなく、最終的な正解の可能性を重視することで、この問題に取り組む。」