Core Concepts
Text-zu-Bild-Modelle werden genutzt, um 3D-konsistente Bilder von realen Objekten zu generieren.
Abstract
Multi-view konsistente Bildgenerierung mit Textbeschreibung.
3D-Asset-Generierung erhält viel Aufmerksamkeit.
Vorstellung einer Methode zur Erzeugung von 3D-konsistenten Bildern.
Integration von 3D-Volume-Rendering und Cross-Frame-Attention in ein U-Net-Netzwerk.
Autoregressive Generierung für 3D-konsistente Bilder.
Trainiert auf realen Datensätzen, zeigt konsistente und qualitativ hochwertige Ergebnisse.
Stats
Unsere Methode erzielt eine visuelle Qualität von -30% FID und -37% KID im Vergleich zu bestehenden Methoden.
Quotes
"Unsere Methode nutzt die 2D-Priorität der vortrainierten Text-zu-Bild-Modelle und verwandelt sie in 3D-konsistente Bildgeneratoren."