Der Artikel stellt ein System zur effizienten Text-zu-3D-Inhaltserstellung vor, das auf Mehransicht-2,5D-Diffusion basiert.
Zunächst wird ein Mehransicht-2,5D-Diffusionsmodell trainiert, indem ein vortrainiertes 2D-Diffusionsmodell auf Mehransicht-Renderings aus dem Objaverse-Datensatz feinabgestimmt wird. Dieses Modell kann synchron Mehransicht-Normalenkarten generieren, die dann durch ein differenzierbares Rasterungsverfahren zu einem 3D-Modell fusioniert werden. Anschließend wird ein weiteres Diffusionsmodell trainiert, um die Textur basierend auf den generierten Normalenkarten zu synthetisieren.
Der gesamte Generierungsprozess ist sehr effizient und kann in nur 10 Sekunden hochwertige, diverse und realistische 3D-Inhalte basierend auf Textbeschreibungen erstellen. Dies stellt einen deutlichen Fortschritt gegenüber bestehenden Methoden dar, die entweder zeitaufwendig sind oder auf begrenzten 3D-Datensätzen trainiert wurden.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Yuanxun Lu,J... às arxiv.org 03-22-2024
https://arxiv.org/pdf/2311.15980.pdfPerguntas Mais Profundas