Die Autoren präsentieren ein neuartiges zweistufiges Framework namens DiffusionGAN3D, das die Leistung von textgesteuerter 3D-Domänenanpassung und Avatargenerierung deutlich verbessert, indem es 3D-GANs und Diffusions-Priors kombiniert.
In der ersten Stufe integrieren sie vortrainierte 3D-Generierungsmodelle (z.B. EG3D) mit textbasierten Diffusions-Modellen. Die 3D-GANs bieten eine stabile Grundlage für die Avatargenerierung, während die Diffusions-Modelle leistungsfähige Priors liefern und die Feinabstimmung der 3D-Generatoren mit informativen Richtungen zur textgesteuerten Domänenanpassung ermöglichen.
Um die Vielfalt bei der Domänenanpassung und die Generierungsfähigkeit bei der Texteingabe-Avatargenerierung zu verbessern, führen die Autoren einen relativen Abstandsverlust und einen fallspezifischen lernbaren Triplane ein.
In der zweiten Stufe entwickeln die Autoren eine neuartige progressive Texturverfeinerung, die die Leistungsfähigkeit der Diffusions-Modelle bei der 2D-Bildsynthese voll ausnutzt und die Texturqualität der Ergebnisse deutlich verbessert.
Umfangreiche Experimente zeigen, dass der vorgeschlagene Ansatz sowohl bei der Domänenanpassung als auch bei der Texteingabe-Avatargenerierung hervorragende Ergebnisse erzielt und bestehende Methoden in Bezug auf Generierungsqualität und -effizienz übertrifft.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询