Core Concepts
大規模言語モデルから学習した思考過程を蒸留することで、小規模モデルにも高度な推論能力を付与できる。
Abstract
本論文は、大規模言語モデルから思考過程を学習し、小規模モデルに蒸留する手法「Symbolic Chain-of-Thought Distillation (SCoTD)」を提案している。
主な内容は以下の通り:
大規模言語モデル(GPT-3)から、入力に対する思考過程(chain-of-thought)を大量にサンプリングする。
サンプリングした思考過程を、小規模言語モデル(OPT)に蒸留することで、小規模モデルにも高度な推論能力を付与する。
実験の結果、SCoTDを用いることで、小規模モデルの性能が大幅に向上し、特に難易度の高いタスクでの性能が大きく改善された。
思考過程のサンプル数が多いほど、小規模モデルの性能が向上することが分かった。一方で、サンプルの多様性や尤度などの要因は必ずしも重要ではない。
SCoTDにより生成された小規模モデルの思考過程は、大規模モデルのものと遜色ないと人間評価で確認された。
Stats
大規模モデルのパラメータ数は175B、小規模モデルのパラメータ数は125M-1.3Bと、2桁以上の差がある。
1つの入力に対して、大規模モデルから30個の思考過程をサンプリングしている。
Quotes
"SCoTDは、大規模モデルから学習した思考過程を蒸留することで、小規模モデルにも高度な推論能力を付与できる。"
"実験の結果、SCoTDを用いることで、小規模モデルの性能が大幅に向上し、特に難易度の高いタスクでの性能が大きく改善された。"
"思考過程のサンプル数が多いほど、小規模モデルの性能が向上することが分かった。"