Основные понятия
PromptKDは、大規模なCLIP教師モデルから軽量なターゲットモデルに知識を転送するための無監督ドメイン固有のプロンプト蒸留フレームワークを紹介します。
Аннотация
この論文では、PromptKDという新しい手法が導入されています。この手法は、大規模なCLIP教師モデルからライトウェイトなターゲットモデルに知識を伝達するための無監督ドメイン固有のプロンプト駆動の蒸留フレームワークです。具体的には、教師事前学習段階と生徒プロンプト蒸留段階から成る2つの明確なステージがあります。教師事前学習段階では、ドメイン少数ショットラベル付きデータを使用して大規模なCLIP教師モデルを事前学習し、その後、生徒プロンプト蒸留段階で広範囲な未ラベルドメインデータに対して生徒モデルを訓練します。CLIPの特有の分離された特性を活用し、提案された手法は教師テキスト特徴量を再利用し、それらを生徒画像エンコーダーに組み込んで蒸留と推論目的に使用します。11つの認識データセットで行われた実験は、この手法の効果を示しています。
Статистика
71.0, 73.0, 75.0, 77.0, 93.4, 94.8, 96.2, 97.6, 94.7, 95.4, 96.1
ViT-B/16イメージエンコーダーから始まる基本から新しい一般化への調和平均(HM)比較。
PromptKDが11種類の多様な認識データセットで最先端性能を達成。
Цитаты
"Prompt learning has emerged as a valuable technique in enhancing vision-language models (VLMs) such as CLIP for downstream tasks in specific domains."
"Our framework consists of two distinct stages: the teacher pre-training stage and the student distillation stage."
"Extensive experiments on 11 datasets demonstrate the effectiveness of our method."