核心概念
既存のデータセットを活用し、言語モデル自身が自動的に生成した推論ステップの質の違いを利用することで、推論能力を向上させる。
摘要
本論文では、言語モデルの推論能力を向上させるための「自己動機付け学習」フレームワークを提案している。
このフレームワークの核となるのは、正解につながる推論ステップは間違った答えにつながる推論ステップよりも優れているという考え方である。
具体的には以下の3つのステップで構成される:
- 推論ステップの生成: 言語モデルを使って、正解と間違った答えに対する推論ステップを生成する。
- 推論ステップの収集: 生成された推論ステップを、正解と最終的な出力の一致度に基づいて、高品質と低品質に分類する。
- モデルの訓練: 高品質な推論ステップを使ってモデルを教師あり学習で訓練し、低品質な推論ステップと高品質な推論ステップの差を報酬として強化学習で最適化する。
この手法により、大規模な言語モデルや手動アノテーションに依存せずに、既存のデータセットを活用して言語モデルの推論能力を向上させることができる。実験の結果、提案手法は複数のデータセットで大幅な性能向上を示した。
統計資料
正解の推論ステップは間違った答えの推論ステップよりも優れている。
報酬モデルのスコアが高いほど、推論ステップの質が高い傾向にある。
強化学習によって、教師あり学習で導入された誤りを一部修正できる。
引述
既存のデータセットを活用し、言語モデル自身が自動的に生成した推論ステップの質の違いを利用することで、推論能力を向上させる。
正解につながる推論ステップは間違った答えにつながる推論ステップよりも優れている。
報酬モデルのスコアが高いほど、推論ステップの質が高い傾向にある。