Keskeiset käsitteet
CLIPを向上させるために、ゼロショット擬似ラベルを使用した新しいトレーニング戦略が効果的であること。
Tiivistelmä
Brown UniversityのCristina Menghiniらによるこの研究では、VLMs(Vision-Language Models)のパフォーマンスを最適化するために、限られたラベルデータを使用してCLIPを強化する方法が提案されています。ゼロショット能力を持つVLMsは、タスク固有のトレーニングなしで第二世代の擬似ラベリングアプローチを可能にします。この研究では、ゼロショット擬似ラベルを監督情報源として使用し、セミ・スーパバイズド学習や無監督学習などの学習パラダイム全体で適用可能な多目的なトレーニング戦略の開発が可能であることが示されています。画像分類タスクでCLIPが制限を示す場合、テキストまたはビジュアルプロンプトや学習パラダイムを変えることで未知のプロンプト調整戦略が一貫してCLIPの精度向上に寄与することが明らかにされました。
Tilastot
VLMs(Vision-Language Models): Vision-Language Models(視覚言語モデル)
CLIP accuracy improvement: CLIP精度向上
Semi-supervised learning: 半教師あり学習 19.5ポイント向上
Transductive zero-shot learning: 転移ゼロショット学習 28.4ポイント向上
Unsupervised learning: 無監督学習 15.2ポイント向上
Lainaukset
"General purpose zero-shot learners used as general purpose pseudolabelers open the opportunity to develop training strategies that leverage pseudolabeled data beyond semi-supervised learning."
"We demonstrate that simple iterative training strategies for refining pseudolabels are highly effective approaches for limited-label prompt tuning."
"Prompts learned with iterative strategies help mitigate the 'rich get richer, poor get poorer' effect observed in semi-supervised approaches leveraging pseudolabels."