核心概念
質問文中のギャップを埋めるヒントを提供する新しいプロンプト戦略であるギャップ埋めプロンプト(GFP)は、小規模言語モデル(SLM)の数学的推論能力を大幅に向上させる。
要約
ギャップ埋めプロンプトによるコード支援数学的推論の強化
本論文は、小規模言語モデル(SLM)の数学的推論能力を向上させるための新しいプロンプト戦略であるギャップ埋めプロンプト(GFP)を提案する。大規模言語モデル(LLM)は数学的推論タスクにおいて優れた性能を発揮するが、その巨大なサイズや独自の性質上、実用的な展開には課題がある。そこで、LLMの能力をSLMに蒸留する手法として、連鎖的な思考(CoT)や思考のプログラム(PoT)を用いたファインチューニングが一般的である。しかし、CoTは計算エラーが多く、PoTは問題からコードへの直接変換や、質問からの重要な情報の抽出のみに焦点を当てている場合が多い。
本研究では、SLMが理解しにくい質問文中のギャップを埋めることに焦点を当て、ヒントを提供することで、SLMが最終的なコードソリューションを生成しやすくすることを目指す。GFPは、まずSLMが質問文中のギャップを特定し、それを埋めるためのヒントを生成する。次に、強化された質問文を用いてPythonコードを生成し、実行することで最終的な数値結果を得る。
GPT-4を教師LLMとしてデータ合成を行い、Flan-T5をヒント生成器、CodeT5をコード生成器として使用した。GSM8KとMultiArithのベンチマークデータセットを用いて評価した結果、GFPは既存のベースラインを大幅に上回る性能を示した。