Core Concepts
モンテカルロ木探索を活用することで、大規模言語モデルの推論能力を段階的に向上させることができる。
Abstract
本論文では、大規模言語モデルの推論能力を向上させるためのアプローチとして、モンテカルロ木探索(MCTS)を活用したイテレーティブな嗜好学習手法を提案している。
具体的には以下の通りである:
MCTSを用いて段階的な嗜好データを収集する。MCTSの先読み能力を活用し、インスタンスレベルの報酬信号を細粒度のステップレベルの信号に変換する。また、自己評価を組み合わせることで、新たに生成されたデータの品質を継続的に更新する。
収集した嗜好データを用いて、Direct Preference Optimization (DPO)によりモデルのポリシーを更新する。理論分析の結果、オンラインでサンプリングしたデータを使うことが自己改善型学習の成功に重要であることが示された。
算術推論タスクおよび常識推論タスクにおいて、提案手法が既存手法に比べて顕著な性能向上を示すことを実験的に確認した。例えば、GSM8K、MATH、SciQでそれぞれ4.8%、3.3%、7.7%の精度向上が得られた。
学習時と推論時のコンピューティングリソースのトレードオフについても分析し、提案手法が効率的に性能向上を実現できることを示した。
Stats
提案手法はGSM8Kで75.9%から80.7%へ、MATHで28.9%から32.2%へと精度を向上させた。
提案手法はARC-Cで60.6%から76.4%へ、SciQで80.8%から88.5%へと精度を向上させた。
Quotes
"モンテカルロ木探索(MCTS)を活用することで、大規模言語モデルの推論能力を段階的に向上させることができる。"
"理論分析の結果、オンラインでサンプリングしたデータを使うことが自己改善型学習の成功に重要であることが示された。"