視覚-言語モデルの空間認識能力を向上させるために、画像空間の座標情報を自然言語で表現する手法を提案し、それを活用した学習目的を導入することで、視覚質問応答などのタスクにおける性能を向上させることができる。
本研究では、ユーザーが指定した画像の特定の領域を理解できる視覚-言語モデルRegionVLMを提案する。これにより、対話型のシステムの実現や、領域理解を必要とする様々なタスクでの優れた性能を実現する。
本研究では、状態、物体、および組み合わせの3つの識別ブランチを同時にモデル化する新しいパラダイム「Multi-Path」を提案し、その実装である「Troika」を開発しました。Troikaは、ブランチ固有のプロンプト表現と分解された視覚特徴の整合性を取ることで、既存手法を大幅に上回る性能を達成しています。さらに、視覚表現とプロンプト表現の意味的な差異を補正するCross-Modal Tractionモジュールを導入することで、さらなる性能向上を実現しています。