Concepts de base
ビジョン-言語モデルのテスト時ゼロショット一般化を向上させるための新しいロバストなMeanShiftアプローチを提案する。プロンプト学習を必要とせず、効率的で汎用的な解決策を示す。
Résumé
本論文では、ビジョン-言語モデルのテスト時ゼロショット一般化を向上させるための新しいアプローチを提案している。従来のプロンプト学習に頼るのではなく、ロバストなMeanShiftアルゴリズムを拡張した手法「MTA」を導入する。
MTAは以下の特徴を持つ:
- 学習不要で、最終的な埋め込み表現のみを利用する
- 各拡張ビューの「内在性スコア」を最適化することで、退化したビューを自動的に管理する
- 効率的な最適化手順を持ち、プロンプト学習よりも高速に動作する
- 様々なビジュアルエンコーダアーキテクチャに対して一般化性を示す
広範な実験の結果、MTAはプロンプト学習手法を上回る性能を示し、スタンドアロンおよびAPI連携アプリケーションの両方に適した解決策であることが分かった。さらに、MTAは既存の少量学習手法とも相性が良く、一貫して性能向上をもたらすことが確認された。
Stats
画像を5つの拡張ビューに変換し、それぞれの特徴ベクトルを得る
各拡張ビューの特徴ベクトルとクラスプロンプトの類似度を計算し、最も高い類似度を持つクラスを予測する
Citations
"ビジョン-言語モデルは、複雑な状況下では満足のいく応答を生成できないという課題に直面している。"
"プロンプト学習は、ビジョン-言語モデルの適応手法として急速に注目を集めている。"
"我々のロバストMeanShiftアプローチは、プロンプト学習を必要とせず、効率的で汎用的な解決策を提供する。"