Der Artikel stellt das StableGarment-Modell vor, das eine einheitliche Lösung für verschiedene garment-zentrierte Bildgenerierungsaufgaben bietet. Das Kernstück des Modells ist ein spezieller Kleidungsencoder, der in der Lage ist, die feinen Details von Kleidungsstücken zu erfassen und diese in die Bildgenerierung mit Stable Diffusion zu integrieren.
Der Kleidungsencoder besteht aus einem trainierbaren Duplikat des Stable Diffusion UNet, das mit einer speziellen additiven Selbstaufmerksamkeitsschicht ausgestattet ist. Diese Schicht ermöglicht es, die detaillierten Texturen der Kleidungsstücke zu übertragen und nahtlos zwischen verschiedenen stilisierten Basismodellen zu wechseln.
Zusätzlich enthält das Modell ein spezielles Try-on ControlNet, das die Eingabe von Körperposen und Bildkontext nutzt, um präzise virtuelles Anprobieren zu ermöglichen. Um die Fähigkeit des Modells, Textbeschreibungen zu befolgen, zu erhalten, wurde ein neuartiger Datengenerator entwickelt, der hochwertige synthetische Daten erzeugt.
Die Experimente zeigen, dass das StableGarment-Modell den aktuellen Stand der Technik bei virtuellen Anprobiemethoden übertrifft und eine hohe Flexibilität für verschiedene garment-zentrierte Anwendungen bietet.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Rui Wang,Hai... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10783.pdfYêu cầu sâu hơn