Core Concepts
大規模な視覚言語モデルを少量のラベル付きサンプルで効率的に適応させることは重要な課題である。しかし、従来の手法は特定の実験設定でのみ良好な性能を示し、一般的な場合には単純なリニアプローブ手法に劣る可能性がある。本研究では、この問題に取り組むため、ゼロショット時の知識を保持しつつ、少量サンプルからの新しい知識を統合する新しい手法を提案する。
Abstract
本論文は、大規模な視覚言語モデルを少量のラベル付きサンプルで効率的に適応させる手法について詳細に検討している。
まず、従来の適応手法は特定の実験設定でのみ良好な性能を示し、一般的な場合には単純なリニアプローブ手法に劣る可能性があることを示している。この問題の原因は、従来手法がモデル選択のためにラベル付きの検証データセットを必要とすることにある。
そこで本研究では、検証データセットを必要とせず、少量のラベル付きサンプルのみを使用して適応を行う新しい手法「CLAP」を提案している。CLAPは、ゼロショット時の知識を保持しつつ、少量サンプルからの新しい知識を統合する手法である。具体的には、クラス毎の適応ペナルティ項を最適化することで、ゼロショット時の知識と少量サンプルからの知識のバランスを取る。
提案手法は、11種類のデータセットや、ドメイン適応の課題などで、従来手法を大きく上回る性能を示している。また、提案手法は検証データセットを必要としないため、実用的な適応シナリオに適している。
Stats
大規模視覚言語モデルを少量のラベル付きサンプルで適応させると、従来手法は単純なリニアプローブ手法に劣る可能性がある。
従来手法は、ラベル付きの検証データセットを必要とするため、実用的な適応シナリオに適していない。