Die Studie präsentiert einen neuen Ansatz zur Generierung von modischen Bildern, der auf Latent-Diffusions-Modellen basiert und durch mehrere Modalitäten gesteuert wird. Der Ansatz, genannt Textual-inverted Multimodal Garment Designer (Ti-MGD), erweitert Latent-Diffusions-Modelle, um mehrere Eingabemodalitäten wie Textbeschreibungen, Körperhaltung, Skizzen und Stofftexturen zu integrieren.
Um das neue Aufgabenfeld zu adressieren, erweitern die Autoren zwei bestehende Modedatensätze, Dress Code und VITON-HD, um multimodale Annotationen. Für die Textsteuerung verwenden sie eine neuartige textuelle Inversions-Technik, um Stofftexturen in den Diffusions-Prozess einzubinden. Darüber hinaus nutzen sie die Fähigkeit der Diffusions-Netzwerke, verschiedene Granularitäten der Eingabemodalitäten in unterschiedlichen Aufmerksamkeitsschichten zu erfassen.
Umfangreiche Experimente zeigen, dass der vorgeschlagene Ansatz state-of-the-art-Methoden in Bezug auf Realismus und Kohärenz der generierten Bilder mit multimodalen Eingaben übertrifft.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Alberto Bald... at arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.14828.pdfDeeper Inquiries