本論文は、リソース制限環境での効率的なゼロショット分類を目的として、小規模なCLIPイメージエンコーダの蒸留手法を提案している。
まず、大規模な一般データセットでの事前学習と、ターゲットドメイン向けの合成データを用いた微調整という2段階のアプローチを採用している。これにより、大規模データを活用しつつ、ターゲットドメインに特化した小規模モデルを効率的に訓練できる。
次に、合成データを生成する際に、大言語モデルを活用してプロンプトの多様性を高めることで、より高品質な合成データを得ている。
最も重要な貢献は、単純な教師-生徒の損失関数ではなく、特徴ベースの蒸留損失を用いることで、合成データと実データの間の一般化性能を大幅に向上させたことである。教師-生徒の損失関数を用いると、生徒モデルが合成データの特徴を過剰に学習してしまい、実データへの一般化が困難になる。一方、特徴ベースの蒸留損失を用いることで、この問題を回避できる。
最終的に、提案手法を用いることで、パラメータ数が最大92%少ない生徒モデルを訓練でき、ターゲットドメインでのゼロショット分類精度がCLIPの大規模教師モデルと同等レベルまで達成できることを示している。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы