本論文では、SPHINX-Vと呼ばれる新しいマルチモーダル大規模言語モデルを紹介する。SPHINX-Vは、ビジョンエンコーダ、視覚的プロンプトエンコーダ、大規模言語モデルから構成され、様々な視覚的プロンプト(ポイント、境界ボックス、自由形状)に対応し、言語理解を実現する。
また、MDVP-Dataと呼ばれる包括的なデータセットを構築し、1.6Mの画像-視覚的プロンプト-テキスト命令のサンプルを提供する。これには、自然画像、文書画像、OCR画像、モバイルスクリーンショット、Webスクリーンショット、マルチパネル画像が含まれる。さらに、MDVP-Benchと呼ばれる包括的で挑戦的なベンチマークを提示し、視覚的プロンプティングの理解を評価する。
実験の結果、SPHINX-Vは詳細な画素レベルの説明や質問応答能力において大幅な改善を示し、優れたピクセルレベルの理解を実現することが明らかになった。
翻譯成其他語言
從原文內容
arxiv.org
深入探究