Основные понятия
マルチモーダル大規模言語モデルの注意機構を利用し、学習可能な潜在変数の最適化によって視覚プロンプトを注入することで、追加の訓練なしに詳細な領域記述と推論を可能にする。
Аннотация
本研究は、マルチモーダル大規模言語モデル (MLLM) に視覚プロンプトを注入する新しい訓練不要の手法を提案している。従来のMLLMは、粗い画像レベルの整列に依存しており、ユーザーは文字列プロンプトのみでモデルを誘導できるため、画像の微妙な視覚的ニュアンスを捉えるのが困難であった。
提案手法の核心は、MLLMのデコーダの注意機構に着目し、視覚トークンを最適化することで、注意マップを操作し、参照領域への注意を強化することである。具体的には、視覚トークンに学習可能な潜在変数を追加し、参照領域と注意マップの関係を表す目的関数を最適化することで、追加の訓練なしに詳細な領域記述と推論を実現する。
提案手法は、四角形、マスク、スクリブル、ポイントなどの様々な形式の視覚プロンプトに対応し、ドメイン外タスクでも優れた一般化性能を示す。また、注意マップの可視化により、モデルの推論過程の解釈性も向上する。
Статистика
注意マップは、テキストプロンプトトークンと視覚トークンの関係を表し、モデルの出力に大きな影響を与える。
MLLMでは、MLPレイヤーを訓練してビジュアルと言語の表現の隔たりを埋めるが、これは間接的に注意マップの値に影響を与える。
提案手法では、視覚トークンを最適化することで、注意マップを操作し、参照領域への注意を強化する。
Цитаты
"注意マップは、モデルの出力と入力ピクセルの関係を捉えるだけでなく、モデルの出力を誘導することも可能にする。"
"視覚トークンを最適化することで、間接的に注意マップを操作し、参照領域への注意を強化できる。"