本研究では、ドメインシフトと零距離学習の両方のOOD一般化能力を維持しつつ、ダウンストリームタスクにビジョン-言語モデルを適応させる手法を提案する。
従来のファインチューニング手法では、クラスラベルのみを使用した単純な教師信号によりモデルが過剰に特化してしまい、OOD一般化能力が大幅に低下する問題がある。
そこで本手法では、2つのタイプのアンカーを使用してファインチューニングを行う。
テキスト補完アンカー: 事前学習済みのキャプショナーを使ってイメージに対する豊富な意味情報を持つテキストを生成し、それをアンカーとして使用する。
イメージ-テキストアンカー: CLIPの事前学習データに似た候補セットから、ダウンストリームタスクに関連する豊富な意味情報を持つイメージ-テキストペアを検索し、それをアンカーとして使用する。
これらの2つのタイプのアンカーを相補的に活用することで、ファインチューニング時にCLIPの元の特徴空間を保持し、OOD一般化能力を維持することができる。
実験の結果、提案手法は従来手法と同等の in-distribution 性能を維持しつつ、ドメインシフトと零距離学習の両方のベンチマークにおいて新しい最先端の結果を達成した。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések