核心概念
複数の大規模言語モデルから知識を蒸留することで、小型の言語モデルの性能を大幅に向上させることができる。
要約
本論文では、TINYLLM と呼ばれる新しい知識蒸留手法を提案している。TINYLLM は以下の特徴を持つ:
-
単一の大規模言語モデルではなく、複数の大規模言語モデルから知識を蒸留する。これにより、知識の多様性を高めることができる。
-
単に正解ラベルを学習するだけでなく、各大規模言語モデルが生成する推論過程(rationale)も学習する。これにより、小型モデルの深い理解力を高めることができる。
-
in-context example generator と teacher-forcing Chain-of-Thought 戦略を導入し、生成された rationale が文脈に適合的で正確なものとなるよう工夫している。
実験の結果、TINYLLM は6つのデータセットと2つの推論タスクにおいて、従来手法と比べて大幅な性能向上を示した。特に、大規模モデルと比べても遜色ない性能を発揮しつつ、モデルサイズは1.1%から26.0%と大幅に小さくなっている。
統計
大規模言語モデルは推論能力が高いが、計算コストが高く実世界での適用が困難である。
小型の言語モデルは計算コストが低いが、推論能力が劣る。
知識蒸留は小型モデルの性能を向上させる有効な手法だが、従来の手法には限界がある。
引用
"Transferring the reasoning capability from stronger large language models (LLMs) to smaller ones has been quite appealing, as smaller LLMs are more flexible to deploy with less expense."
"To solve the problems and facilitate the learning of compact language models, we propose TINYLLM, a new knowledge distillation paradigm to learn a small student LLM from multiple large teacher LLMs."