Core Concepts
3DBenchは、オブジェクトレベルからシーンレベルまでの広範な空間的および意味的スケールをカバーする包括的な3Dベンチマークを提供し、マルチモーダル大規模言語モデルの総合的な評価を可能にする。さらに、10種類の多様なマルチモーダルタスクをカバーする大規模な指示チューニングデータセットを自動的に構築する手法を提案する。
Abstract
3DBenchは、オブジェクトレベルからシーンレベルまでの広範な空間的および意味的スケールをカバーする10種類の多様なマルチモーダルタスクを含むベンチマークを提案する。これにより、マルチモーダル大規模言語モデル(MLLM)の総合的な評価が可能になる。
具体的には、分類、視覚的接地(VG)、検出、カウンティングなどの一般的なタスクを拡張し、部屋検出、オブジェクト関係、ナビゲーションなどの新しいタスクを導入する。さらに、テキスト生成タスクとしてQAとキャプションも含まれる。
ベンチマークには3種類の評価メトリクスが含まれる。1) GPTを使ったテキスト生成タスクの評価、2) 検出やVGのための精度やmAP、3) ナビゲーションのための新しいパスロスメトリクス。
データセットの構築では、Procthorシミュレーションフレームワークから深度マップと関連メタデータを抽出し、GPTを使ってテキストタスクのための指示チューニングデータを自動生成する。合計で23万以上のQAペアを含む大規模なデータセットを構築した。
実験では、3DBenchを使ってLAMM、PointLLM、Point-LLMの性能を評価した。結果、3DBenchは既存のデータセットよりも優れた性能を示し、3D-LLMsの空間理解能力の限界と今後の研究方向性を明らかにした。
Stats
30,000の室内シーンと34,000の日用品オブジェクトの3Dポイントクラウドを収集
合計で23万以上のQAペアを含む大規模な指示チューニングデータセットを構築