Core Concepts
3D視覚グラウンディングと3D密集キャプションの2つの密接に関連するタスクを、プロンプトベースのローカリゼーション能力を活用することで、単一のエンドツーエンドのフレームワークで統合的に解決する。
Abstract
本論文は、3D視覚グラウンディング(3DVG)と3D密集キャプション(3DDC)の2つの密接に関連するタスクを、単一のエンドツーエンドのフレームワークで統合的に解決する手法を提案している。
具体的には以下の通り:
3DVGモデルのプロンプトベースのローカリゼーション能力に着目し、これを3DDCタスクの検出部分に活用することで、2つのタスクを自然に統合する。
既存の3DVGモデルにライトウェイトのキャプションヘッドを追加し、異なるテキストプロンプトを入力することで、3DVGと3DDCの両タスクを同時に学習可能な統一的なTransformerベースのフレームワーク「3DGCTR」を提案する。
3DGCTR は、ScanRefer ベンチマークにおいて3DVGと3DDCの両タスクで最先端の性能を達成し、さらに両タスクの相互促進効果も確認された。
このように、本手法は3DVGと3DDCの統合的な解決を可能にし、3D シーン理解の分野に大きな影響を与えると考えられる。
Stats
3DGCTR は、ScanRefer データセットの3DVGタスクにおいて、Acc@0.25IoUで57.75%、Acc@0.5IoUで46.28%を達成し、既存手法を大幅に上回る性能を示した。
3DDCタスクでは、CIDEr@0.5IoUで66.11%を達成し、既存最高手法Vote2Cap-DETRを4.30%上回った。
Quotes
"3DVGモデルのプロンプトベースのローカリゼーション能力を再考することで、3DVGモデルがプロンプトを入力として3DDCタスクの検出部分を支援できる。"
"3DGCTR は、3DVGと3DDCの両タスクを同時に学習可能な統一的なTransformerベースのフレームワークである。"
"3DGCTR は、ScanRefer ベンチマークにおいて3DVGと3DDCの両タスクで最先端の性能を達成し、さらに両タスクの相互促進効果も確認された。"