本研究では、3D Gaussianスプラッティングと多解像度ハッシュ符号化を組み合わせた新しいシーン表現手法FMGS(Foundation Model Embedded 3D Gaussian Splatting)を提案している。
主な特徴は以下の通り:
3D Gaussianスプラッティングを用いて3Dジオメトリと外観を効率的に表現し、多解像度ハッシュ符号化によって言語特徴を軽量に埋め込む。これにより、数百万個の3D Gaussianを含む部屋スケールのシーンでも効率的に表現できる。
複数視点からの学習により、言語特徴の3D一貫性を確保し、ピクセルレベルの整合性を保つ。これにより、言語ベースの物体検出や言語理解タスクで優れた性能を発揮する。
CLIP特徴とDINO特徴の特性を組み合わせ、ピクセル整列損失関数を導入することで、より精細な言語特徴表現を実現する。
実験では、言語ベースの3D物体検出タスクで従来手法を10.2%上回る精度を達成し、851倍高速な推論を実現した。また、言語ベースの3Dセグメンテーションタスクでも優れた性能を示した。本手法は、拡張現実やロボティクスなどの3D環境理解タスクに貢献できると期待される。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Xingxing Zuo... о arxiv.org 05-07-2024
https://arxiv.org/pdf/2401.01970.pdfГлибші Запити