核心概念
Detect2Interactは、オブジェクトの空間的マップと言語的記述を統合し、ユーザーの質問に合わせてオブジェクトの視覚的キーフィールドを特定することで、より直感的で対話的なVQAシステムを実現する。
要約
本研究では、Detect2Interactと呼ばれる新しいアプローチを提案している。Detect2Interactは、オブジェクトの空間的セグメンテーションと言語的記述を統合することで、ユーザーの質問に応じてオブジェクトの視覚的キーフィールドを特定する。
具体的には、以下の3つのモジュールから構成される:
- ゼロショットセマンティックオブジェクト検出モジュール:
- SAMを使ってオブジェクトのセグメンテーションマップを生成
- Vision Studioを使ってオブジェクトの言語的記述を抽出
- セグメンテーションマップと言語記述を統合し、ゼロショットでオブジェクトを検出
- ターゲットオブジェクト抽出モジュール:
- ユーザーの質問からターゲットオブジェクトを特定
- GPT-4の常識知識を活用し、ターゲットオブジェクトの意味的重要性を理解
- 視覚的キーフィールド検出モジュール:
- ターゲットオブジェクトの空間マトリクスをGPT-4に入力
- ユーザーの要求に合致する視覚的キーフィールドを特定し、ハイライト表示
これにより、Detect2Interactは従来のVQAシステムよりも直感的で対話的な応答を生成できる。定性的な実験では、MiniGPT-v2などの既存手法と比較して優れた性能を示した。
統計
「ドアを蹴って開けられる場所はどこですか?」という質問に対して、「ドアの下半分の領域」と回答した。