Core Concepts
人間の思考プロセスを模倣して数学的推論能力を向上させるためのBrainアプローチを提案する。
Abstract
この記事では、大規模言語モデルが数学の単語問題を解決する能力を示す一方で、複雑な多段階の数学的推論タスクにおいては強力な論理推論能力が欠如していることが指摘されています。過去の研究では、LLM(Large Language Models)の能力拡張に関する様々な手法が探求されてきました。本研究では、新しいアプローチであるBrainを提案し、Frontal Lobe Modelを使用して計画を生成し、Parietal Lobe Modelを使用してコードを生成し実行することで数学的推論能力を向上させる方法に焦点を当てています。この手法により、Code LLaMA 7Bベースのモデルと比較してSOTAパフォーマンスが達成されました。また、自然言語やコード、形式言語から計画が明示的に抽出可能であることも発見されました。
Stats
PRMはエラーの発生率を大幅に減少させることができます。
PRMはステップごとに推論経路を評価します。
LRMはCoTプロセスをLean 1形式に変換し、Lean計算結果でプロセスの正確性を評価します。
DPOは最適ポリシーを閉じた形式で抽出することが可能です。
Quotes
"Recent works attempt to enhance the ability of LLMs in complex multi-step mathematical reasoning tasks by increasing the amount and improving the quality of supervised fine-tuning (SFT) training data."
"We propose a novel approach Brain that imitate human brain thought processes to enhance mathematical reasoning abilities."
"Our extensive ablation experiments indicate that the outputs of LLMs for mathematical reasoning tasks, whether in natural language, code, or formal language, all contain plans."