Der Artikel stellt ein System zur effizienten Text-zu-3D-Inhaltserstellung vor, das auf Mehransicht-2,5D-Diffusion basiert.
Zunächst wird ein Mehransicht-2,5D-Diffusionsmodell trainiert, indem ein vortrainiertes 2D-Diffusionsmodell auf Mehransicht-Renderings aus dem Objaverse-Datensatz feinabgestimmt wird. Dieses Modell kann synchron Mehransicht-Normalenkarten generieren, die dann durch ein differenzierbares Rasterungsverfahren zu einem 3D-Modell fusioniert werden. Anschließend wird ein weiteres Diffusionsmodell trainiert, um die Textur basierend auf den generierten Normalenkarten zu synthetisieren.
Der gesamte Generierungsprozess ist sehr effizient und kann in nur 10 Sekunden hochwertige, diverse und realistische 3D-Inhalte basierend auf Textbeschreibungen erstellen. Dies stellt einen deutlichen Fortschritt gegenüber bestehenden Methoden dar, die entweder zeitaufwendig sind oder auf begrenzten 3D-Datensätzen trainiert wurden.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Yuanxun Lu,J... om arxiv.org 03-22-2024
https://arxiv.org/pdf/2311.15980.pdfDiepere vragen