Core Concepts
視覚的プロンプトと入力画像を処理することで、MLLMの柔軟な使用と深い応答を実現する。
Abstract
本論文では、SPHINX-Vと呼ばれる新しいマルチモーダル大規模言語モデルを紹介する。SPHINX-Vは、ビジョンエンコーダ、視覚的プロンプトエンコーダ、大規模言語モデルから構成され、様々な視覚的プロンプト(ポイント、境界ボックス、自由形状)に対応し、言語理解を実現する。
また、MDVP-Dataと呼ばれる包括的なデータセットを構築し、1.6Mの画像-視覚的プロンプト-テキスト命令のサンプルを提供する。これには、自然画像、文書画像、OCR画像、モバイルスクリーンショット、Webスクリーンショット、マルチパネル画像が含まれる。さらに、MDVP-Benchと呼ばれる包括的で挑戦的なベンチマークを提示し、視覚的プロンプティングの理解を評価する。
実験の結果、SPHINX-Vは詳細な画素レベルの説明や質問応答能力において大幅な改善を示し、優れたピクセルレベルの理解を実現することが明らかになった。
Stats
画像の中の<Region 1>は光沢のある茶色と白の顔を持つ子ミーアキャットである。
<Region 2>の子ミーアキャットは少し頭を傾げ、視聴者に直接見つめているように見える。