本論文は、大規模多様モデル(MLLM)の性能を向上させるための新しい手法「Transferable Visual Prompting (TVP)」を提案している。
MLLMは多様なタスクに優れた性能を発揮するが、特定のタスクでは専門モデルに劣る。そのため、MLLMの性能を向上させる適応手法が必要とされている。従来の微調整手法は計算コストと記憶容量の問題がある。
本研究では、単一のMLLMで学習した視覚的プロンプトを他のMLLMに転移することで、効率的に複数のMLLMの性能を向上させる手法を提案する。しかし、既存の視覚的プロンプト手法では、プロンプトの転移性が低く、他のMLLMの性能を十分に向上させられない。
そこで本研究では、2つの新しい手法を提案する。1つ目は「Feature Consistency Alignment (FCA)」で、プロンプトによる特徴変化を抑えて、モデルの一般的な知識を維持する。2つ目は「Task Semantics Enrichment (TSE)」で、CLIPを用いてプロンプトに課題関連の意味情報を埋め込む。
これらの手法により、単一のMLLMで学習した視覚的プロンプトを他のMLLMに効果的に転移でき、10種類の多様なタスクにおいて大幅な性能向上を実現した。また、データ量の少ない場合でも有効であり、他のデータセットや画像の劣化にも頑健であることを示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yichi Zhang,... at arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.11207.pdfDeeper Inquiries