Die Autoren präsentieren GP-NeRF, ein neuartiges Framework, das NeRF und leistungsfähige 2D-Segmentierungsmodule vereint, um eine kontextbewusste 3D-Szenenwahrnehmung zu ermöglichen. Im Gegensatz zu bisherigen NeRF-basierten Ansätzen, die Semantiklabels für jeden Pixel unabhängig voneinander rendern, nutzt GP-NeRF Transformers, um Strahlungs- und semantische Einbettungsfelder gemeinsam zu konstruieren und diese für die volumetrische Renderung in neuen Ansichten zu verwenden. Außerdem werden zwei neuartige Selbstdistillationsmechanismen eingeführt, um die Diskriminierung und Qualität des semantischen Einbettungsfelds zu verbessern.
Unser Ansatz MORE2 ermöglicht es, 3D-Umgebungen als "lebendige Szenen" zu verstehen und die Aufgaben der Objektzuordnung, Registrierung und Rekonstruktion über mehrere zeitliche Beobachtungen hinweg zu lösen, um eine zunehmend genaue und vollständige 3D-Rekonstruktion der Objektinstanzen zu erhalten.
SAI3D ist ein neuartiger nullshot-basierter Ansatz zur 3D-Instanzsegmentierung, der geometrische Priors und semantische Hinweise aus 2D-Bildmasken effizient kombiniert, um hochgenaue 3D-Objektsegmentierungen in komplexen Szenen zu erzielen.
Unser Ansatz ermöglicht eine ganzheitliche Darstellung urbaner Szenen, indem er Geometrie, Erscheinung, Semantik und Bewegung in einem einheitlichen 3D-Gaussschen Modell integriert. Dies ermöglicht die Erzeugung von Ansichten, semantischen Karten und Bewegungsfeldern allein aus RGB-Bildern, ohne zusätzliche Eingaben wie LiDAR-Scans oder manuell annotierte 3D-Begrenzungsboxen zu benötigen.
Der Datensatz "Reality-linked 3D Scenes" (R3DS) bietet realitätsnahe 3D-Szenenproxys, die mit Panoramaaufnahmen aus der realen Welt verknüpft sind. R3DS enthält dicht bevölkerte Szenen mit Objekthierarchien und übereinstimmenden Objektgruppen, was die Leistung bei Aufgaben zum Verständnis von Panoramaaufnahmen verbessert.