Die Studie präsentiert ComboVerse, ein Framework zur 3D-Inhaltserstellung, das hochwertige 3D-Assets mit komplexen Kompositionen aus einem einzelnen Bild erstellen kann.
Zunächst wird eine eingehende Analyse des "Multi-Objekt-Gaps" bestehender Methoden durchgeführt, sowohl aus Modell- als auch aus Datenperspektive. Dieser Gap zeigt sich in Schwierigkeiten bei der Handhabung von Objektüberlagerungen und Kameraeinstellungen.
Um diese Herausforderungen zu adressieren, verwendet ComboVerse einen zweistufigen Ansatz. In der ersten Phase werden die einzelnen Objekte im Bild unabhängig voneinander rekonstruiert, unter Verwendung eines Verfahrens zum Entfernen von Verdeckungen und eines Bild-zu-3D-Modells.
In der zweiten Phase werden die generierten 3D-Objekte automatisch zu einem Gesamtmodell kombiniert, indem ihre Größe, Ausrichtung und Position optimiert werden. Hierbei wird eine räumlich-bewusste Diffusions-Führung verwendet, die die räumlichen Beziehungen zwischen den Objekten stärker berücksichtigt als herkömmliche Methoden.
Umfangreiche Experimente zeigen, dass ComboVerse deutliche Verbesserungen gegenüber bestehenden Methoden bei der Handhabung mehrerer Objekte, Verdeckungen und Kameraeinstellungen erzielt.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Yongwei Chen... klokken arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12409.pdfDypere Spørsmål