Core Concepts
Wir präsentieren MVSplat, ein effizientes vorwärtsgerichtetes 3D-Gaussian-Splatting-Modell, das aus spärlichen Multi-View-Bildern gelernt wird. Unser Modell konstruiert einen Kostenkubus, um Informationen über die Merkmalsübereinstimmung zwischen den Ansichten zu nutzen, um eine präzisere Geometrieschätzung zu ermöglichen. Im Vergleich zum neuesten Stand der Technik verwendet unser Modell 10-mal weniger Parameter und ist mehr als 2-mal schneller, während es eine höhere Erscheinungs- und Geometriequalität sowie eine bessere Generalisierung über Datensätze hinweg bietet.
Abstract
Die Kernaussage dieses Artikels ist, dass die Autoren ein effizientes vorwärtsgerichtetes 3D-Gaussian-Splatting-Modell namens MVSplat präsentieren, das aus spärlichen Multi-View-Bildern gelernt wird.
Zunächst erklären die Autoren, dass 3D-Szenenrekonstruktion und Neuansichtsynthese aus sehr spärlichen Bildern eine grundlegende Herausforderung in der Computervision darstellen. Obwohl bemerkenswerte Fortschritte bei neuronalen Szenenrepräsentationen erzielt wurden, sind diese Methoden aufgrund aufwendiger pro-Szenen-Optimierung, hoher Speicherkosten und langsamer Rendergeschwindigkeit für praktische Anwendungen noch nicht zufriedenstellend.
Die Autoren stellen dann 3D-Gaussian-Splatting (3DGS) als eine effiziente und ausdrucksstarke 3D-Repräsentation vor, die eine schnelle Rendergeschwindigkeit und hohe Qualität bietet. Mehrere vorwärtsgerichtete Gaussian-Splatting-Methoden wurden vorgeschlagen, um 3D-Rekonstruktion aus spärlichen Ansichten zu erforschen, wie Splatter Image und pixelSplat. Diese Methoden haben jedoch Schwierigkeiten, eine zuverlässige probabilistische Tiefenverteilung allein aus Bildmerkmalen vorherzusagen, was zu einer relativ geringen Geometrierekonstruktionsqualität und verrauschten Artefakten führt.
Um die 3D-Gaussian-Zentren genau zu lokalisieren, schlagen die Autoren vor, eine Kostenkubus-Darstellung über Ebenensuche im 3D-Raum aufzubauen. Der Kostenkubus speichert Ähnlichkeiten zwischen Merkmalen über Ansichten hinweg, die wertvolle geometrische Hinweise für die Lokalisierung von 3D-Oberflächen liefern können. Mit dieser Kostenkubus-Darstellung wird die Aufgabe als Merkmalsabgleich formuliert, um die Gaussian-Zentren zu identifizieren, im Gegensatz zu den datengesteuerten 3D-Regressionen aus Bildmerkmalen in früheren Arbeiten.
Das vollständige Modell MVSplat lernt die Gaussian-Parameter (Position, Opazität, Kovarianz und Farbe) end-to-end mit rein photometrischer Verlustfunktion. Auf den großen Benchmarks RealEstate10K und ACID erreicht MVSplat den besten Stand der Technik mit der schnellsten vorwärtsgerichteten Inferenzgeschwindigkeit. Im Vergleich zum neuesten Stand der Technik pixelSplat verwendet unser Modell 10-mal weniger Parameter und ist mehr als 2-mal schneller, während es eine höhere Erscheinungs- und Geometriequalität sowie eine bessere Generalisierung über Datensätze hinweg bietet.
Stats
Unser MVSplat-Modell verwendet 12 Millionen Parameter, während das pixelSplat-Modell 125,4 Millionen Parameter verwendet.
MVSplat benötigt 0,044 Sekunden für die Inferenz, während pixelSplat 0,104 Sekunden benötigt.
Quotes
"Wir präsentieren MVSplat, ein effizientes vorwärtsgerichtetes 3D-Gaussian-Splatting-Modell, das aus spärlichen Multi-View-Bildern gelernt wird."
"Unser Modell konstruiert einen Kostenkubus, um Informationen über die Merkmalsübereinstimmung zwischen den Ansichten zu nutzen, um eine präzisere Geometrieschätzung zu ermöglichen."
"Im Vergleich zum neuesten Stand der Technik verwendet unser Modell 10-mal weniger Parameter und ist mehr als 2-mal schneller, während es eine höhere Erscheinungs- und Geometriequalität sowie eine bessere Generalisierung über Datensätze hinweg bietet."