Die Autoren präsentieren ein neuartiges zweistufiges Framework namens DiffusionGAN3D, das die Leistung von textgesteuerter 3D-Domänenanpassung und Avatargenerierung deutlich verbessert, indem es 3D-GANs und Diffusions-Priors kombiniert.
In der ersten Stufe integrieren sie vortrainierte 3D-Generierungsmodelle (z.B. EG3D) mit textbasierten Diffusions-Modellen. Die 3D-GANs bieten eine stabile Grundlage für die Avatargenerierung, während die Diffusions-Modelle leistungsfähige Priors liefern und die Feinabstimmung der 3D-Generatoren mit informativen Richtungen zur textgesteuerten Domänenanpassung ermöglichen.
Um die Vielfalt bei der Domänenanpassung und die Generierungsfähigkeit bei der Texteingabe-Avatargenerierung zu verbessern, führen die Autoren einen relativen Abstandsverlust und einen fallspezifischen lernbaren Triplane ein.
In der zweiten Stufe entwickeln die Autoren eine neuartige progressive Texturverfeinerung, die die Leistungsfähigkeit der Diffusions-Modelle bei der 2D-Bildsynthese voll ausnutzt und die Texturqualität der Ergebnisse deutlich verbessert.
Umfangreiche Experimente zeigen, dass der vorgeschlagene Ansatz sowohl bei der Domänenanpassung als auch bei der Texteingabe-Avatargenerierung hervorragende Ergebnisse erzielt und bestehende Methoden in Bezug auf Generierungsqualität und -effizienz übertrifft.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Biwen Lei,Ka... um arxiv.org 04-15-2024
https://arxiv.org/pdf/2312.16837.pdfTiefere Fragen