Core Concepts
人間の視覚知覚を模倣するPerceptionCLIPは、ゼロショット画像分類において改善された汎化性能、スパリアス特徴への依存の軽減、およびグループの堅牢性を達成します。
Stats
CLIPは400百万枚以上の画像・キャプションペアで事前学習されています。
PerceptionCLIPは11つのデータセットで卓越した汎化性能とグループ堅牢性を実証しています。
Quotes
"Providing CLIP with contextual attributes improves zero-shot image classification and mitigates reliance on spurious features."
"Conditioning on ground-truth contextual attributes improves classification accuracy notably."