Core Concepts
大規模な言語モデルから小さなモデルへの数学的専門知識の蒸留と精製により、弱い監督設定で数学の単語問題を解決する手法が提案されています。
Abstract
この記事は、大規模な言語モデルから小さなモデルへの数学的専門知識を転送する革新的な2段階フレームワークに焦点を当てています。蒸留段階では、LLMから数学的知識を抽出して教師付きトレーニングに必要な問題-方程式ペアを構築します。精製段階では、未成功の検索データを効果的に利用するために知識精練法が使用されます。最終的に、2段階手法で生成された蒸留データを使用して新しい小さなモデルをトレーニングします。この手法は、Math23KおよびWeak12Kデータセットで従来の小さなモデル手法よりも優れたパフォーマンスを示し、ChatGPTよりも低い計算コストを維持します。
Introduction:
数学の単語問題は自然言語で書かれた数学問題の解決策を提供する複雑なタスクです。
Seq2Seqモデルはこのタスクのモデリングと解決に一般的に選択されています。
弱い監督設定では、「問題-方程式」ペアだけが含まれるため、特定の方法が必要です。
Methodology:
FLTT Method:
知識蒸留:LLMから高品質な「問題-方程式」ペアを生成します。
知識精練:未成功の検索データから中間モデルを微調整し、効率的に利用します。
Data Processing:
「問題-方程式」ペア全体に処理が行われます。
Knowledge Distilling based LLM:
ChatGPTと対話しながら初期ソリューションを抽出します。
方程式生成後、形式チェックと結果チェックが行われます。
Knowledge Refine based middle model:
中間モデル[θ]は未成功の検索データ[ω]で微調整されます。
ビームサーチ後、最適なポテンシャル方程式が選択されます。
Distilling knowledge to MWPs solver:
Seq2SeqモデルとしてMWPsソルバーが使用されます。
FLTTメソッドはChatGPTおよび中間モデルから得られた蒸留済みデータ[ω‘]∪[Φ] を教師信号として使用します。
Experimental Results:
FLTTメソッドはMath23KおよびWeak12Kデータセットで他の手法よりも優れたパフォーマンスを示しました。FLTTメソッドはリソース制約環境下で小さなモデル能力向上可能性を示唆しています。
Stats
弱い監督設定でMWPsソルバーは15Mパラメータサイズで76.1%性能向上(Math23K)。
FLTT-roformerは15Mパラメータサイズで65.1%性能向上(Math23K)。