Core Concepts
視覚的プロンプティングを活用することで、マルチモーダルLLMの視覚的推論能力と物体-テキストの整合性を大幅に向上させることができる。
Abstract
本研究では、視覚的プロンプティングの一種であるSet-of-Mark (SoM)プロンプティングに着目し、その学習方法について提案している。SoMプロンプティングでは、画像上に数字のタグを付与することで、視覚的オブジェクトとテキストトークンの関連付けを行う。
著者らは、既存のマルチモーダルLLMではSoMプロンプティングの理解が不十分であることを示し、新たな学習パラダイム「一つずつアイテムを列挙する」を提案する。この手法では、画像上のタグ付きオブジェクトを順番に列挙・記述するよう学習させることで、SoMプロンプティングの理解を促進する。
提案手法に基づいて収集したデータセットを用いて、LLaVA-1.5モデルをファインチューニングした結果、SoMプロンプティングの理解が大幅に向上し、5つのマルチモーダルベンチマークでも優れた性能を発揮した。さらに、推論時にタグを入力しなくても高い性能が維持されることを示し、提案手法の有効性を確認した。
最後に、トレーニング済みモデルの分析を通じて、SoMプロンプティングの内部メカニズムについて考察している。視覚的オブジェクトとテキストトークンの関連付けが適切に学習されていることが確認された。
Stats
画像上のタグ付きオブジェクトを順番に列挙・記述することで、マルチモーダルLLMのSoMプロンプティング理解が大幅に向上した。
提案手法に基づいて収集したデータセットを用いてファインチューニングしたモデルは、5つのマルチモーダルベンチマークで優れた性能を発揮した。
推論時にタグを入力しなくても高い性能が維持されることが示された。
Quotes
"SoMプロンプティングは、視覚的オブジェクトとテキストトークンの関連付けを強化し、マルチホップの視覚的推論を可能にする。"
"一つずつアイテムを列挙する学習パラダイムは、マルチモーダルLLMにSoMプロンプティングの理解を促進する。"
"提案手法に基づいて収集したデータセットを用いてファインチューニングしたモデルは、視覚的推論能力の向上と幻覚の減少を示した。"