Główne pojęcia
人間の視覚知覚を模倣するPerceptionCLIPは、ゼロショット画像分類において改善された汎化性能、スパリアス特徴への依存の軽減、およびグループの堅牢性を達成します。
Streszczenie
CLIPはゼロショット画像分類に強力な潜在能力を示すが、現在の方法はテキスト検索タスクとして画像分類を扱い、使用されるテキストプロンプトに対する系統的な調査が欠如している。
PerceptionCLIPは、コンテキスト属性に基づく条件付き推論を行うことでゼロショット画像分類の精度を向上させます。背景や方向などのコンテキスト属性に注目し、モデルがスパリアス特徴に依存しないようにします。
人間が画像内のオブジェクトを分類する際に獲得するコンテキスト属性(背景や方向)を考慮することで、PerceptionCLIPは一般化能力やグループの堅牢性を向上させます。
複数のコンテキスト属性を考慮したPerceptionCLIPは80個のテンプレートを使用したプロンプト集合よりも優れたゼロショット分類精度を達成します。
テキスト記述に干渉することでコンテキスト属性推論への介入が実験的に有効であり、モデル全体のパフォーマンス向上に貢献します。
Statystyki
CLIPは400百万枚以上の画像・キャプションペアで事前学習されています。
PerceptionCLIPは11つのデータセットで卓越した汎化性能とグループ堅牢性を実証しています。
Cytaty
"Providing CLIP with contextual attributes improves zero-shot image classification and mitigates reliance on spurious features."
"Conditioning on ground-truth contextual attributes improves classification accuracy notably."