Der Artikel stellt ein System zur effizienten Text-zu-3D-Inhaltserstellung vor, das auf Mehransicht-2,5D-Diffusion basiert.
Zunächst wird ein Mehransicht-2,5D-Diffusionsmodell trainiert, indem ein vortrainiertes 2D-Diffusionsmodell auf Mehransicht-Renderings aus dem Objaverse-Datensatz feinabgestimmt wird. Dieses Modell kann synchron Mehransicht-Normalenkarten generieren, die dann durch ein differenzierbares Rasterungsverfahren zu einem 3D-Modell fusioniert werden. Anschließend wird ein weiteres Diffusionsmodell trainiert, um die Textur basierend auf den generierten Normalenkarten zu synthetisieren.
Der gesamte Generierungsprozess ist sehr effizient und kann in nur 10 Sekunden hochwertige, diverse und realistische 3D-Inhalte basierend auf Textbeschreibungen erstellen. Dies stellt einen deutlichen Fortschritt gegenüber bestehenden Methoden dar, die entweder zeitaufwendig sind oder auf begrenzten 3D-Datensätzen trainiert wurden.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yuanxun Lu,J... alle arxiv.org 03-22-2024
https://arxiv.org/pdf/2311.15980.pdfDomande più approfondite