Konsep Inti
マルチモーダル言語モデル (MLLM) の時空間推論能力は、画像間の粗対応付けを視覚的なプロンプトとして与えることで、モデルのアーキテクチャやタスク固有のファインチューニングなしに大幅に向上させることができる。
Abstrak
粗対応付けを用いたマルチモーダル言語モデルの時空間推論の向上
本論文は、マルチモーダル言語モデル (MLLM) の時空間推論能力を向上させるための、シンプルでありながら効果的なトレーニングフリーな視覚的プロンプト手法である「粗対応付け (COARSE CORRESPONDENCES)」を提案している。
従来手法の課題と粗対応付けの優位性
従来のMLLMは、優れた言語理解能力や論理的思考能力を示す一方で、3D空間や時系列データの理解といった視覚・空間認識能力においては限界があった。
これを解決するために、3Dデータの入力、3Dタスクに特化したアーキテクチャの設計、3Dデータを用いた教師ありファインチューニングといったアプローチが主流であった。
しかし、これらのアプローチは、複雑な設計や大規模なデータセットを必要とするため、効率性に課題があった。
本論文で提案する粗対応付けは、既存の物体追跡モデルを用いて画像間のオブジェクトレベルの対応関係を抽出し、視覚的なプロンプトとしてMLLMに与えることで、モデルのアーキテクチャやタスク固有のファインチューニングなしに、時空間推論能力を向上させることができる。
粗対応付けの手順
- 対応関係の追跡: 入力画像シーケンスに対して、既存の物体追跡モデルを用いて、各画像のインスタンスセグメンテーションマスクを抽出する。
- フレームのスパース化: 計算コスト削減のため、抽出されたマスクから時間的にダウンサンプリングを行い、入力画像数を削減する。
- 粗対応付けの選択: 全ての対応関係をプロンプトすると情報過多になるため、複数フレームにわたって共起する上位K個のオブジェクトの顕著なインスタンスを選択する。
- 粗対応付けの視覚化: 選択されたインスタンスの対応関係を、画像上にマークとして重畳表示する。
実験結果
提案手法を、GPT-4V/O、LLaVAなどのオープンソース・クローズドソースモデルに適用し、ScanQA、OpenEQA、EgoSchema、VLN-CEといった空間・時間的推論を必要とする6つのベンチマークで評価を行った。
その結果、粗対応付けは、ベースとなるGPTモデルを大幅に改善し、多くの場合において、特殊なファインチューニングを行った既存の最先端手法を上回る性能を達成した。
結論
粗対応付けは、画像間の粗対応付けを視覚的なプロンプトとして与えるだけで、MLLMの時空間推論能力を効果的かつ効率的に向上させることができる。
この手法は、既存のMLLMアーキテクチャやトレーニングデータセットを変更することなく、容易に実装できるため、実用性の高い手法と言える。
Statistik
ScanQAベンチマークにおいて、GPT-4oモデルに粗対応付けを適用することで、BLEU-2で5.7ポイント、METEORで3.2ポイント、ROUGE-Lで6.5ポイント、CIDErで15ポイントの改善が見られた。
EgoSchemaベンチマークにおいて、粗対応付けを用いることで、わずか8フレームの入力画像で、より多くのフレームを使用する既存手法を上回る性能を達成した。
R2Rベンチマークのナビゲーションタスクにおいて、粗対応付けを用いることで、GPT-4oモデルの成功率が11%向上した。
ScanQAベンチマークにおいて、オープンソースモデルLLaVAに粗対応付けを適用することで、3Dタスクに特化した既存のVLMを上回る性能を達成した。
SQA3Dデータセットを用いたゼロショット評価においても、粗対応付けを用いることで、ベースラインを上回る性能が得られた。
Kutipan
"Despite their excellent performance on visual-lingusitic tasks, many recent works [24, 37] demonstrate that state-of-the-art MLLMs still struggle at 3D and long video understanding benchmarks, performing only marginally better than blind text-only baselines."
"COARSE CORRESPONDENCES uses a tracking model to extract object-level correspondences across multiple images, and then represent the most salient correspondence relationships on the images through visual prompting."
"We have demonstrated substantial performance gains of COARSE CORRESPONDENCES through extensive experiments with both open-source and closed-source models across 6 benchmarks on spatial-temporal reasoning."