Centrala begrepp
本稿では、複数の巨大言語モデル(LLM)を用いた新しい知識蒸留手法である「間違いを認識する相互評価型蒸留(MAPD)」を提案する。この手法は、生徒モデルが教師モデルの正解だけでなく、自身の誤りからも学習することを可能にすることで、推論能力の向上を目指す。
Sammanfattning
複数のLLMを用いた相互評価による知識蒸留:間違いから学び推論能力を高める
本稿では、大規模言語モデル(LLM)の推論能力を、より小規模なモデルに効率的に転移させるための新しい知識蒸留手法である「間違いを認識する相互評価型蒸留(MAPD)」を提案する。
LLMは、複雑な推論能力を示し、自然言語処理(NLP)タスクにおいて優れたパフォーマンスを発揮する。しかし、これらの能力は、一般的に数十億のパラメータを持つ巨大なモデルで出現するため、実世界への展開には大きな計算コストがかかる。近年の研究では、商用LLMからの知識蒸留(KD)を通じて、オープンソースの小規模モデルを改善することに焦点が当てられてきた。しかし、これらの研究のほとんどは、学習のための正解根拠として、単一のLLMからの応答のみに依存している。