DSSフレームワークを情報理論的視点から再調査し、情報ボトルネックを使用してモデルの強化を提案しました。
大規模言語モデルの知識蒸留は、オープンソースモデルに高度な能力を伝達し、効率的でアクセス可能なAIソリューションを実現するための重要な手法である。
生徒が教師の確率から逸脱し、それでも性能を向上させる方法を解明する。
教師モデルの誤った予測を修正し、適切なデータを選択することで、学生モデルの性能を向上させる。
教師モデルの各空間成分を学生モデル全体に蒸留することで、学生モデルの表現力を高める。
本稿では、複数の巨大言語モデル(LLM)を用いた新しい知識蒸留手法である「間違いを認識する相互評価型蒸留(MAPD)」を提案する。この手法は、生徒モデルが教師モデルの正解だけでなく、自身の誤りからも学習することを可能にすることで、推論能力の向上を目指す。
本稿では、従来のKLダイバージェンスに基づく知識蒸留が、生徒モデルと教師モデルの出力間の相関関係を十分に捉えられないことに着目し、特に強力な教師モデルを用いた場合に、生徒モデルの精度と汎化能力が低下する問題を指摘しています。この問題に対処するため、ピアソン相関係数とスピアマン順位相関係数を組み合わせた新しい知識蒸留手法であるCMKDを提案し、教師モデルの出力値だけでなく、クラス間の相対的な順位関係も学習することで、より効率的かつ堅牢な知識蒸留を実現しています。
大規模言語モデル(LLM)から小規模言語モデル(LM)へ多段階推論能力を効率的に転移するため、中間規模のタスク特化型モデル「Mentor」を用いた新しい知識蒸留フレームワーク「Mentor-KD」を提案する。
二重 Augmentation 戦略を用いた新しい知識蒸留手法である Invariant Causal Knowledge Distillation with Dual Augmentation (ICDA) を提案する。これは、教師モデルと生徒モデルの両方に異なる Augmentation を適用することで、より堅牢で汎用性の高い表現の学習を促進する。
大規模言語モデル(LLM)のテキストからSQLへの変換における知識蒸留において、従来の手法は性能と効率性のバランスに課題があった。本稿では、訓練データに意図的に誤りを導入することで推論時のカスケード効果を模倣し、訓練と推論の差異を効果的かつ効率的に軽減する新しい知識蒸留手法「KID」を提案する。