本研究では、大規模な教師モデルを必要とせずに、効率的に知識蒸留を行う新しい手法を提案している。従来の知識蒸留では、大規模な教師モデルが必要であり、計算コストが高かった。
提案手法では、小規模な自己符号化器を使用して、クラス間の類似性を表す確率分布を生成する。この確率分布を学生モデルの訓練時のソフトラベルとして使用することで、大規模な教師モデルを必要とせずに、効率的に知識蒸留を行うことができる。
実験の結果、CIFAR-100、Tiny ImageNet、Fashion MNISTのデータセットで、提案手法が従来の知識蒸留手法と同等以上の精度を達成しつつ、大幅にリソース消費を削減できることが示された。また、提案手法は既存の知識蒸留手法と互換性があり、それらと組み合わせて使用することで、さらなる性能向上が期待できる。
本研究は、リソース制約環境でも知識蒸留の恩恵を受けられるようにする重要な貢献であり、深層学習分野の発展に寄与するものと考えられる。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Divyang Dosh... alle arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09886.pdfDomande più approfondite