Główne pojęcia
大規模言語モデル(LLM)のファインチューニングを効率化するため、タスク特化的に学習させた小規模モデルの知識を、動的なログ確率融合を用いて大規模モデルに転移させる手法を提案する。
Streszczenie
動的ログ確率融合による小規模モデルから大規模モデルへの効率的な知識転移
本論文は、大規模言語モデル(LLM)のファインチューニングを効率化するため、動的ログ確率融合を用いて、タスク特化的に学習させた小規模モデルの知識を大規模モデルに転移させる新しい手法を提案しています。
近年、LLMは目覚ましい性能を示していますが、その巨大なパラメータ数は、タスク特化的な適応のためのトレーニングを困難にしています。従来のファインチューニング手法は計算コストが高く、プライベートなトレーニングデータには適していません。そこで、小規模モデルのみをファインチューニングし、その知識を大規模モデルに転移させることができれば、計算コストを抑えつつ、大規模モデルの能力を活用できるという利点があります。
既存の知識転移手法であるログ確率演算は、小規模モデルから大規模モデルへの知識転移を試みていますが、以下の二つの課題がありました。
静的な知識転移率: 既存手法は、デコードの各ステップで知識転移率を固定しており、タスクや入力、デコードのステップによって変化するファインチューニングされた知識の重要度に対応できていませんでした。
単一の小規模モデル: 複雑な知識を転移するために単一のモデルを使用しており、性能が制限されていました。