Core Concepts
Wir präsentieren eine modulare Methode, die eine umfassende 3D-Rekonstruktion komplexer Szenen aus einer einzelnen Ansicht ermöglicht, ohne ein End-to-End-Training zu erfordern.
Abstract
Die Methode verfolgt einen Teile-und-Herrsche-Ansatz, um 3D-Szenen aus einer einzelnen Eingabeansicht zu rekonstruieren. Zunächst wird die Szene ganzheitlich verarbeitet, um Tiefe und semantische Informationen zu extrahieren. Anschließend wird eine Einzelbild-Objektrekonstruktionsmethode verwendet, um die einzelnen Komponenten detailliert wiederherzustellen. Durch den kompositionellen Verarbeitungsansatz kann die Gesamtrekonstruktion komplexer 3D-Szenen aus einer einzelnen Ansicht erreicht werden. Die Pipeline ist modular aufgebaut, sodass zukünftige Verbesserungen der Einzelkomponenten leicht integriert werden können.
Die Methode beginnt mit der Analyse der Szene, bei der die Kameraparameter, die Tiefenkarte und die semantische Segmentierung der Entitäten geschätzt werden. Anschließend werden die identifizierten Instanzen in "Dinge" und "Stuff" unterteilt, um den Rekonstruktionsprozess entsprechend anzupassen. Für die "Dinge" wird eine amodale Vervollständigung durchgeführt, um verdeckte Objektteile wiederherzustellen. Jedes Objekt wird dann individuell in einem normalisierten Raum rekonstruiert und mithilfe der Tiefenkarte in den Szenenraum transformiert. Der Hintergrund wird als Oberfläche modelliert, die die "Stuff"-Entitäten approximiert.
Die Experimente zeigen, dass die vorgeschlagene Methode in der Lage ist, komplexe reale Szenen mit hoher Qualität zu rekonstruieren und dabei die Leistung bestehender Ansätze übertrifft.
Stats
Die Methode erzielt auf dem 3D-FRONT-Datensatz einen Chamfer-Abstand von 0,099 und einen F-Score von 75,33 für die Gesamtrekonstruktion der Szene.
Quotes
"Wir präsentieren eine modulare Methode, die eine umfassende 3D-Rekonstruktion komplexer Szenen aus einer einzelnen Ansicht ermöglicht, ohne ein End-to-End-Training zu erfordern."
"Durch den kompositionellen Verarbeitungsansatz kann die Gesamtrekonstruktion komplexer 3D-Szenen aus einer einzelnen Ansicht erreicht werden."