Centrala begrepp
ビジョン-言語モデルの固有の表現能力を最大限に保ちつつ、トレーニングフリーかつラベリングフリーの方法で類似性ベースの予測確率を用いて強化する。
Sammanfattning
本論文では、Training-Free Unsupervised Prompt (TFUP)を提案する。TFUPは、ビジョン-言語モデルの固有の表現能力を最大限に保ちつつ、類似性ベースの予測確率を用いて強化する。具体的には以下の手順を行う:
- 教師なしデータセットから、信頼度フィルタと原型フィルタを用いて代表的なサンプルを選択し、Feature Cache Model (FCM)を構築する。
- テスト画像と代表サンプルの特徴レベルの類似性と意味レベルの類似性を考慮した Multi-level Similarity Measure (MSM)を提案し、類似性ベースの予測確率を生成する。
- 元の予測確率と類似性ベースの予測確率を組み合わせることで、トレーニングフリーかつラベリングフリーの手法を実現する。
このTFUPは、ラベル付きデータを一切使わずに、元のCLIPの性能を大幅に上回る結果を達成する。さらに、TFUPをベースにトレーニングベースのアプローチ(TFUP-T)を提案し、教師なしデータに擬似ラベルと大域的な予測分布の制約を導入することで、最先端の分類性能を実現する。
Statistik
教師なしデータセットから選択した代表的なサンプルの特徴とラベルを用いて構築したFeature Cache Modelを活用する。
テスト画像とキャッシュサンプルの特徴レベルの類似性と意味レベルの類似性を組み合わせた Multi-level Similarity Measureを提案する。
Citat
"ビジョン-言語モデルの固有の表現能力を最大限に保ちつつ、類似性ベースの予測確率を用いて強化する。"
"トレーニングフリーかつラベリングフリーの手法を実現する。"
"教師なしデータに擬似ラベルと大域的な予測分布の制約を導入することで、最先端の分類性能を実現する。"