Kernkonzepte
UniHDA ist ein einheitlicher und vielseitiger Rahmen für die generative hybride Domänenanpassung mit multimodalen Referenzen aus mehreren Domänen. Es verwendet den CLIP-Encoder, um multimodale Referenzen in einen einheitlichen Einbettungsraum zu projizieren, und nutzt dann die lineare Interpolation der Richtungsvektoren aus mehreren Zieldomänen, um eine hybride Domänenanpassung zu erreichen. Außerdem führt es einen neuartigen Verlust der domänenübergreifenden räumlichen Struktur ein, um die Konsistenz mit der Quelldomäne zu erhalten.
Zusammenfassung
Der Artikel stellt UniHDA, einen einheitlichen und vielseitigen Rahmen für die multimodale hybride Domänenanpassung, vor.
Kernpunkte:
- UniHDA ermöglicht die Verwendung von Referenzen aus mehreren Modalitäten (Text und Bild) und adaptiert den Generator an eine hybride Zieldomäne, die Merkmale aus mehreren Domänen kombiniert.
- Es verwendet den CLIP-Encoder, um multimodale Referenzen in einen einheitlichen Einbettungsraum zu projizieren, und nutzt dann die lineare Interpolation der Richtungsvektoren aus mehreren Zieldomänen, um eine hybride Domänenanpassung zu erreichen.
- UniHDA führt einen neuartigen Verlust der domänenübergreifenden räumlichen Struktur ein, um die Konsistenz mit der Quelldomäne zu erhalten und die Überanpassung an domänenspezifische Attribute zu verhindern.
- Die Experimente zeigen, dass UniHDA in der Lage ist, realistische Bilder mit verschiedenen Attributkombinationen zu synthetisieren und mit verschiedenen Generatoren (StyleGAN, EG3D, Diffusionsmodelle) umzugehen.
Statistiken
"Lächeln" und "Foto" sind Beispiele für Textprompts, die als Referenz verwendet werden.
Die Abbildung zeigt, dass lineare Interpolation zwischen Richtungsvektoren in CLIPs Einbettungsraum eine semantisch sinnvolle Kompositionsfähigkeit offenbart.