Der Artikel stellt das StableGarment-Modell vor, das eine einheitliche Lösung für verschiedene garment-zentrierte Bildgenerierungsaufgaben bietet. Das Kernstück des Modells ist ein spezieller Kleidungsencoder, der in der Lage ist, die feinen Details von Kleidungsstücken zu erfassen und diese in die Bildgenerierung mit Stable Diffusion zu integrieren.
Der Kleidungsencoder besteht aus einem trainierbaren Duplikat des Stable Diffusion UNet, das mit einer speziellen additiven Selbstaufmerksamkeitsschicht ausgestattet ist. Diese Schicht ermöglicht es, die detaillierten Texturen der Kleidungsstücke zu übertragen und nahtlos zwischen verschiedenen stilisierten Basismodellen zu wechseln.
Zusätzlich enthält das Modell ein spezielles Try-on ControlNet, das die Eingabe von Körperposen und Bildkontext nutzt, um präzise virtuelles Anprobieren zu ermöglichen. Um die Fähigkeit des Modells, Textbeschreibungen zu befolgen, zu erhalten, wurde ein neuartiger Datengenerator entwickelt, der hochwertige synthetische Daten erzeugt.
Die Experimente zeigen, dass das StableGarment-Modell den aktuellen Stand der Technik bei virtuellen Anprobiemethoden übertrifft und eine hohe Flexibilität für verschiedene garment-zentrierte Anwendungen bietet.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Rui Wang,Hai... ב- arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10783.pdfשאלות מעמיקות