Core Concepts
ビジョン-言語モデルをドメインシフトや零距離学習などのOOD一般化を維持しつつ、ダウンストリームタスクに適応させる手法を提案する。
Abstract
本研究では、ドメインシフトと零距離学習の両方のOOD一般化能力を維持しつつ、ダウンストリームタスクにビジョン-言語モデルを適応させる手法を提案する。
従来のファインチューニング手法では、クラスラベルのみを使用した単純な教師信号によりモデルが過剰に特化してしまい、OOD一般化能力が大幅に低下する問題がある。
そこで本手法では、2つのタイプのアンカーを使用してファインチューニングを行う。
テキスト補完アンカー: 事前学習済みのキャプショナーを使ってイメージに対する豊富な意味情報を持つテキストを生成し、それをアンカーとして使用する。
イメージ-テキストアンカー: CLIPの事前学習データに似た候補セットから、ダウンストリームタスクに関連する豊富な意味情報を持つイメージ-テキストペアを検索し、それをアンカーとして使用する。
これらの2つのタイプのアンカーを相補的に活用することで、ファインチューニング時にCLIPの元の特徴空間を保持し、OOD一般化能力を維持することができる。
実験の結果、提案手法は従来手法と同等の in-distribution 性能を維持しつつ、ドメインシフトと零距離学習の両方のベンチマークにおいて新しい最先端の結果を達成した。
Stats
ファインチューニング時のクラスラベルのみの単純な教師信号では、モデルが過剰に特化してしまい、OOD一般化能力が大幅に低下する。
事前学習済みのキャプショナーを使って生成したテキスト補完アンカーにより、ファインチューニング時の性能を1.3%改善した。
ダウンストリームタスクに関連する豊富な意味情報を持つイメージ-テキストペアアンカーを使うことで、ファインチューニング時の性能を0.8%改善した。
2つのタイプのアンカーを組み合わせることで、ドメインシフトと零距離学習の両方の性能を大幅に向上させることができた。
Quotes
"ビジョン-言語モデルをダウンストリームタスクに適応させる際、OOD一般化能力を維持することが重要である。"
"従来のファインチューニング手法では、クラスラベルのみの単純な教師信号を使うため、モデルが過剰に特化してしまい、OOD一般化能力が大幅に低下する。"
"本手法では、豊富な意味情報を持つアンカーを活用することで、ファインチューニング時にCLIPの元の特徴空間を保持し、OOD一般化能力を維持できる。"