核心概念
ビジョン・言語モデルの汎用性を高めるため、クラス認識に基づくプロトタイプの整列と識別を行う。これにより、ドメイン間のギャップを効果的に埋めることができる。
摘要
本研究では、ビジョン・言語モデル(VLM)の汎用性を高めるための手法を提案している。
まず、VLMの事前学習時のデータ分布と、テストデータの分布の違いが性能低下の原因となることを指摘する。従来の手法では、テスト時にプロンプトを動的に調整することで対応していたが、クラス間の分布の違いを考慮していなかった。
そこで本手法では、以下の2つの取り組みを行う:
- クラス認識に基づくプロトタイプの整列
- テストサンプルとその拡張サンプルのプロトタイプを、事前に計算したクラスプロトタイプと整列させる
- クラスごとの平均確率を重み付けとして使用することで、クラス間の分布の違いに対応する
- プロトタイプの識別
- テストサンプルとその拡張サンプルのプロトタイプを、クラスプロトタイプと識別的に学習する
- これにより、プロンプト表現の単一クラスへの収束を防ぐことができる
これらの取り組みにより、ドメイン間のギャップを効果的に埋めることができ、ベースラインと比べて高い汎用性を示すことができた。
統計資料
テストサンプルとその拡張サンプルの平均クラス確率は、プロトタイプ整列の重み付けに使用される。
クラスプロトタイプは、事前に計算された代替ソースデータセットから得られる。