Qian Zhang. (2024). Generalizable Prompt Tuning for Vision-Language Models. Conference’17, Washington, DC, USA.
本研究は、ビジョン言語モデル(VLM)のプロンプトチューニングにおいて、ダウンストリームタスクにおける高い性能と、未知のクラスへの汎化性能の両立という課題に取り組むことを目的とする。
本研究では、ソフトプロンプトとハードクラフトプロンプトをテキストモダリティのデュアルビューとして捉え、相互情報量(MI)の最大化を通じて両者の共通する意味情報を効果的に抽出する手法を提案する。さらに、視覚モダリティからのクラス単位の水増しを導入することで、プロンプトの表現力を高め、未知のクラスへのロバスト性を向上させる。
提案手法は、ベースクラスと新規クラス間の汎化性能、ドメイン汎化性能、およびデータセット間の転移学習性能の3つの観点から評価され、いずれの評価においても既存手法を凌駕する結果を示した。具体的には、11のデータセットを用いた実験において、提案手法はベースクラスと新規クラスの両方において高い精度を達成し、既存手法と比較して、タスク固有の性能と汎化性能のバランスをより効果的に実現できることが示された。
本研究では、VLMのプロンプトチューニングにおいて、テキストモダリティのデュアルビューと視覚モダリティからの水増しを組み合わせることで、タスク固有の性能と汎化性能の両方を向上させることができることを示した。
本研究の成果は、VLMの幅広い実応用に向けて、より効果的なプロンプトチューニング手法を提供するものである。特に、限られた数の学習データしか利用できない状況において、提案手法は未知のクラスに対しても高い汎化性能を発揮することが期待される。
本研究では、画像分類タスクを対象とした評価を行ったが、将来的には、画像キャプション生成や物体検出など、他のVLMタスクへの適用可能性についても検討する必要がある。また、より高度なMI推定器の導入や、他のデータ拡張手法との組み合わせによるさらなる性能向上の可能性についても検討する価値がある。
To Another Language
from source content
arxiv.org
สอบถามเพิ่มเติม