CLIPを向上させるために、ゼロショット擬似ラベルを使用した新しいトレーニング戦略が効果的であること。
複数の関連するタスクを共同で学習することで、視覚言語モデルのプロンプトチューニングの性能を大幅に向上させることができる。
本稿では、ビジョン言語モデルのプロンプトチューニングにおいて、タスク固有の性能と汎化性能の両方を向上させる新しい手法を提案する。これは、ソフトプロンプトとハードクラフトプロンプトをテキストモダリティのデュアルビューとして扱い、相互情報を最大化することで、タスク固有の情報と一般的な意味情報をより効果的に統合する。さらに、視覚モダリティからのクラスごとの水増しを導入することで、より広範囲の未知クラスに対するロバスト性を大幅に向上させる。