本論文では、CLIP (Contrastive Language-Image Pre-training) を利用した知識蒸留手法について検討している。
通常の知識蒸留では、教師モデルの出力を学生モデルの出力と比較することで、学生モデルの性能を向上させる。しかし、教師モデルが大規模な場合、教師モデルの推論を行うコストが大きくなる問題がある。
そこで本論文では、2つの手法を提案している:
CLIP-Teacher-KD: CLIP の教師-学生モデルの類似性を直接損失関数に組み込む手法。
CLIP-Embed-KD: 教師モデルの事前計算した埋め込みを利用し、教師モデルの推論を行わずに知識蒸留を行う手法。
実験の結果、CLIP-Embed-KDは、CLIP-Teacher-KDと比べて計算コストを大幅に削減しつつ、ほぼ同等の性能を達成できることが示された。特に、大規模な教師モデルや大きな入力サイズを使う場合に、CLIP-Embed-KDの優位性が顕著に現れる。
toiselle kielelle
lähdeaineistosta
arxiv.org
Syvällisempiä Kysymyksiä