Frankenstein ist ein diffusionsbasierter Rahmen, der in einem einzigen Durchgang semantisch-kompositorische 3D-Szenen erzeugen kann. Im Gegensatz zu bestehenden Methoden, die eine einzelne, vereinheitlichte 3D-Form ausgeben, erzeugt Frankenstein gleichzeitig mehrere getrennte Formen, von denen jede einer semantisch sinnvollen Komponente entspricht.
Die 3D-Szeneninformationen werden in einem einzigen Tri-Plane-Tensor codiert, aus dem mehrere Signed Distance Function (SDF)-Felder decodiert werden können, um die kompositorischen Formen darzustellen. Während des Trainings komprimiert ein Autoencoder die Tri-Planes in einen Latenzraum, und dann wird der Entfernungsdiffusionsprozess verwendet, um die Verteilung der kompositorischen Szenen zu approximieren.
Frankenstein zeigt vielversprechende Ergebnisse bei der Erzeugung von Rauminterieurs sowie menschlichen Avataren mit automatisch getrennten Teilen. Die generierten Szenen erleichtern viele nachgelagerte Anwendungen wie teilweise Umtexturierung, Objektumordnung im Raum oder Avatar-Kleidungsretargeting.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Han Yan,Yang... ที่ arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16210.pdfสอบถามเพิ่มเติม