核心概念
SHAPELLM is a novel 3D multimodal Large Language Model designed for embodied interaction, achieving state-of-the-art performance in 3D geometry understanding and language-unified tasks.
要約
SHAPELLMは、体験型インタラクションのために設計された新しい3Dマルチモーダル大規模言語モデルであり、3Dジオメトリ理解と言語統合タスクで最先端のパフォーマンスを達成しています。RECON++を使用した新しい3Dポイントクラウドエンコーダーが提案され、多視点蒸留と3D表現学習の拡大が行われました。さらに、構築された指示に従うデータに対する3Dビジュアル指示チューニングが実施されました。新しく設立された評価ベンチマークである3D MM-Vetは、基本的な知識から制御文生成までの4つのレベル能力を評価しています。
統計
RECON++はScanObjectNNおよびModelNet40で95.25%および95.0%の精度を達成し、以前の記録を上回りました。
SHAPELLM-7BとSHAPELLM-13Bは、新しく構築された3D MM-Vetベンチマークでそれぞれ42.7%と49.3%の総合精度を達成しました。
引用
"SHAPELLM successfully unifies various downstream tasks, including 3D captioning, 3D VQA, embodied task planning & decomposition, and 3D embodied visual grounding."
"RECON++ has obtained remarkable accuracy on ScanObjectNN and ModelNet40, surpassing previous best records by a significant margin."
"SHAPELLM initiates a first step towards leveraging LLMs for embodied object interaction."