Centrala begrepp
Frankenstein ist ein diffusionsbasierter Rahmen, der in einem einzigen Durchgang semantisch-kompositorische 3D-Szenen erzeugen kann, indem er mehrere getrennte Formen gleichzeitig generiert, von denen jede einer semantisch sinnvollen Komponente entspricht.
Sammanfattning
Frankenstein ist ein diffusionsbasierter Rahmen, der in einem einzigen Durchgang semantisch-kompositorische 3D-Szenen erzeugen kann. Im Gegensatz zu bestehenden Methoden, die eine einzelne, vereinheitlichte 3D-Form ausgeben, erzeugt Frankenstein gleichzeitig mehrere getrennte Formen, von denen jede einer semantisch sinnvollen Komponente entspricht.
Die 3D-Szeneninformationen werden in einem einzigen Tri-Plane-Tensor codiert, aus dem mehrere Signed Distance Function (SDF)-Felder decodiert werden können, um die kompositorischen Formen darzustellen. Während des Trainings komprimiert ein Autoencoder die Tri-Planes in einen Latenzraum, und dann wird der Entfernungsdiffusionsprozess verwendet, um die Verteilung der kompositorischen Szenen zu approximieren.
Frankenstein zeigt vielversprechende Ergebnisse bei der Erzeugung von Rauminterieurs sowie menschlichen Avataren mit automatisch getrennten Teilen. Die generierten Szenen erleichtern viele nachgelagerte Anwendungen wie teilweise Umtexturierung, Objektumordnung im Raum oder Avatar-Kleidungsretargeting.
Statistik
Die Erzeugung von 3D-Vermögenswerten mit hochwertiger Geometrie ist für viele Computer-Vision- und Grafikanwendungen unerlässlich.
Der Fortschritt bei den Entfernungsdiffusionsmodellen und Transformatoren hat die Entwicklung von 3D-Generierungsmodellen erheblich beschleunigt.
Bestehende Methoden erzeugen 3D-Daten in Form eines einzelnen neuronalen Feldes, wie eines Neural Radiance Field (NeRF) oder einer Signed Distance Function (SDF).
Folglich sind die generierten 3D-Vermögenswerte miteinander verwoben, so dass Dreiecksnetze semantisch nicht unterscheidbar sind.
Citat
"Frankenstein ist ein diffusionsbasierter Rahmen, der in einem einzigen Durchgang semantisch-kompositorische 3D-Szenen erzeugen kann."
"Im Gegensatz zu bestehenden Methoden, die eine einzelne, vereinheitlichte 3D-Form ausgeben, erzeugt Frankenstein gleichzeitig mehrere getrennte Formen, von denen jede einer semantisch sinnvollen Komponente entspricht."