Unser Modell nutzt die Eigenschaften von Selbstaufmerksamkeitsschichten, um hochrangige Beziehungen zwischen Objekten in einer Szene zu erfassen, und verwendet diese als Bausteine für die Generierung von 3D-Szenen aus Szenen-Graphen.
Eine Methode zur Generierung und Kontrolle von 3D-Szenen unter Verwendung von Teilbildern, Layout-Informationen und Textaufforderungen.
Frankenstein ist ein diffusionsbasierter Rahmen, der in einem einzigen Durchgang semantisch-kompositorische 3D-Szenen erzeugen kann, indem er mehrere getrennte Formen gleichzeitig generiert, von denen jede einer semantisch sinnvollen Komponente entspricht.
Das vorgeschlagene Modell (SEK) generiert maßgeschneiderte, vielfältige und plausible 3D-Szenen, indem es den Entschärfungsprozess mit einer handgezeichneten Skizze der Zielszene und Hinweisen aus einer Objektbeziehungswissensbasis konditioniert.
Ein 3D-Diffusionsmodell, das auf einer Vogelperspektiven-Karte (BEV) basiert, um realistische und detaillierte urbane Szenen mit Geometrie und Semantik in Form einer semantischen Belegungskarte zu generieren.