本研究は、マルチモーダル大規模言語モデル (MLLM) に視覚プロンプトを注入する新しい訓練不要の手法を提案している。従来のMLLMは、粗い画像レベルの整列に依存しており、ユーザーは文字列プロンプトのみでモデルを誘導できるため、画像の微妙な視覚的ニュアンスを捉えるのが困難であった。
提案手法の核心は、MLLMのデコーダの注意機構に着目し、視覚トークンを最適化することで、注意マップを操作し、参照領域への注意を強化することである。具体的には、視覚トークンに学習可能な潜在変数を追加し、参照領域と注意マップの関係を表す目的関数を最適化することで、追加の訓練なしに詳細な領域記述と推論を実現する。
提案手法は、四角形、マスク、スクリブル、ポイントなどの様々な形式の視覚プロンプトに対応し、ドメイン外タスクでも優れた一般化性能を示す。また、注意マップの可視化により、モデルの推論過程の解釈性も向上する。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問