Belangrijkste concepten
本稿では、3Dシーンにおける状況認識能力を評価するための大規模データセットMSQAと、2つのベンチマークタスクMSQA、MSNNを提案する。
Samenvatting
3Dシーンにおけるマルチモーダル状況認識:大規模データセットとベンチマークの提案
論文情報
Xiongkun Linghu, Jiangyong Huang, Xuesong Niu, Xiaojian Ma, Baoxiong Jia, Siyuan Huang. (2024). Multi-modal Situated Reasoning in 3D Scenes. Advances in Neural Information Processing Systems (NeurIPS).
研究目的
本研究は、3Dシーンにおけるエージェントの状況認識能力を評価するための、大規模で多様なデータセットとベンチマークタスクを開発することを目的とする。
手法
- 3DシーングラフとVision-Language Models (VLMs)を活用し、現実世界の3Dシーンから大規模なマルチモーダル状況認識データセット「Multi-modal Situated Question Answering (MSQA)」を構築した。
- MSQAには、9つの質問カテゴリにわたる251Kの状況依存の質問応答ペアが含まれており、3Dシーン内の複雑なシナリオを網羅している。
- 状況と質問の説明にテキスト、画像、点群を提供する、ベンチマークにおける新しいインターリーブマルチモーダル入力設定を導入し、従来の単一モダリティの慣習(例:テキスト)における曖昧さを解消した。
- モデルの状況認識を評価するために、マルチモーダル状況依存の次ステップナビゲーション(MSNN)ベンチマークを考案した。
主な結果
- MSQAとMSNNに関する既存のVision-Language Modelsの包括的な評価により、複雑な状況を効果的にモデル化し、インターリーブマルチモーダル入力を十分に活用することの限界が明らかになった。
- 特にインターリーブマルチモーダル入力と状況モデリングを処理するために設計された強力なベースラインモデルMSR3Dを提案し、MSQAとMSNNの両方で優れた結果を達成した。
- データスケーリングとクロスドメイン転移に関する実験により、MSQAを事前トレーニングデータセットとして活用して、より強力な状況認識モデルを開発することの効果がさらに実証された。
結論
本研究で提案されたMSQAデータセットとMSQA、MSNNベンチマークは、3Dシーンにおける状況認識と体現AIの分野における今後の研究の進展に貢献するものである。
意義
本研究は、現実世界の3Dシーンにおけるエージェントの状況認識能力を評価するための、包括的なデータセットとベンチマークを提供することで、体現AIの進歩に大きく貢献するものである。
制限と今後の研究
- LLMによって生成されたデータは、より高いデータ品質を達成するために、人間の好みに合わせてさらに調整する必要がある。
- より多くの現実世界および合成3Dシーンを網羅するようにデータ生成パイプラインを拡張することで、状況認識データの規模と多様性がさらに向上し、より強力なモデルが生まれる可能性がある。
- 状況認識と状況推論を評価するための評価タスクは、質問応答や行動予測に限定されるべきではない。例えば、物体接地のようなシーン理解に焦点を当てた他のタスクも考慮することができる。
Statistieken
MSQAデータセットは、9つの質問カテゴリにわたる251Kの状況依存の質問応答ペアを含む。
MSNNデータセットは、378の3Dシーンにわたる34KのMSNNデータサンプルを含む。
Citaten
"To address the aforementioned data limitations, we propose, Multi-modal Situated Question Answering (MSQA), a high-quality, large-scale multi-modal dataset for 3D situated reasoning."
"We propose the use of interleaved multi-modal input setting for model learning and evaluation, establishing two comprehensive benchmarking tasks, MSQA and MSNN, to assess models’ capability in situated reasoning and navigation in 3D scenes."