Concepts de base
Semantische Gaussians führen eine neuartige semantische Komponente in 3D-Gaussian-Splatting ein, um offenes Vokabular-3D-Szenenverständnis zu ermöglichen, ohne zusätzliches Training zu erfordern.
Résumé
Semantische Gaussians ist ein neuer Ansatz für offenes Vokabular-3D-Szenenverständnis, der auf 3D-Gaussian-Splatting aufbaut. Der Kerngedanke ist es, Wissen aus vortrainierten 2D-Encodern in 3D-Gaussians zu destillieren, indem eine semantische Komponente zu jedem Gaussian-Punkt hinzugefügt wird.
Das Verfahren umfasst zwei Hauptkomponenten:
- Ein vielseitiges Projektionsverfahren, das semantische Merkmale von verschiedenen vortrainierten 2D-Modellen auf 3D-Gaussian-Punkte abbildet.
- Ein 3D-semantisches Netzwerk, das die semantischen Komponenten direkt aus den Rohdaten der 3D-Gaussians vorhersagt, um eine schnellere Inferenz zu ermöglichen.
Die hinzugefügten semantischen Komponenten der 3D-Gaussians ermöglichen diverse Anwendungen rund um das offene Vokabular-Szenenverständnis, wie semantische Segmentierung, Objektteilsegmentierung, Szenenbearbeitung und raumzeitliche Verfolgung.
Experimente auf dem ScanNet-Benchmark zeigen, dass Semantische Gaussians die Leistung von 2D-Vortrainingsmodellen übertreffen kann, ohne zusätzliches Training zu erfordern. Qualitative Ergebnisse auf verschiedenen Anwendungen belegen die Vielseitigkeit und Effektivität des Ansatzes.
Stats
Die Verwendung von 3D-Gaussian-Splatting anstelle von Punktwolken oder Neuronalen Strahlungsfeldern (NeRFs) bietet Vorteile wie eine effizientere Renderingleistung und eine explizitere Parameterisierung der 3D-Szene.
Citations
"Semantische Gaussians führen eine neuartige semantische Komponente in 3D-Gaussian-Splatting ein, um offenes Vokabular-3D-Szenenverständnis zu ermöglichen, ohne zusätzliches Training zu erfordern."
"Das Verfahren umfasst zwei Hauptkomponenten: ein vielseitiges Projektionsverfahren und ein 3D-semantisches Netzwerk, das die semantischen Komponenten direkt aus den Rohdaten der 3D-Gaussians vorhersagt."
"Experimente auf dem ScanNet-Benchmark zeigen, dass Semantische Gaussians die Leistung von 2D-Vortrainingsmodellen übertreffen kann, ohne zusätzliches Training zu erfordern."