Centrala begrepp
Durch die Integration von Rückmeldungen eines differenzierbaren Belohnungsmodells in den Prozess der Latenzmodellkonsistenz-Destillation können hochwertige Bilder mit nur 2-4 Inferenzschritten generiert werden, was eine 25-fache Beschleunigung gegenüber dem Lehrmodell darstellt, ohne Qualitätsverluste.
Sammanfattning
Der Artikel stellt eine neue Methode namens "Reward Guided Latent Consistency Distillation" (RG-LCD) vor, die darauf abzielt, die Effizienz und Qualität von Text-zu-Bild-Synthesesystemen zu verbessern.
Ausgangspunkt ist die Beobachtung, dass Latenzmodellkonsistenz-Destillation (LCD) zwar eine schnelle Bildgenerierung in nur 2-4 Inferenzschritten ermöglicht, aber auf Kosten der Bildqualität. Um dies zu kompensieren, schlägt der Artikel vor, Rückmeldungen eines differenzierbaren Belohnungsmodells (RM) in den LCD-Prozess zu integrieren.
Konkret wird der LCD-Verlust um ein Ziel zur Maximierung der mit der einstufigen Bildgenerierung assoziierten Belohnung erweitert. Die Autoren bezeichnen diesen Ansatz als "Reward Guided LCD" (RG-LCD). Durch menschliche Bewertung zeigen sie, dass die 2-Schritt-Generierungen des RG-LCM den 50-Schritt-Generierungen des Lehrmodells Stable Diffusion überlegen sind, was eine 25-fache Beschleunigung ohne Qualitätsverlust darstellt.
Um das Problem der Belohnungsüberschätzung zu lösen, führen die Autoren außerdem ein latentes Proxy-Belohnungsmodell (LRM) ein, das als Vermittler zwischen dem LCM und dem RGB-basierten RM dient. Empirisch zeigt sich, dass der Einsatz des LRM die Erzeugung von Hochfrequenzrauschen in den generierten Bildern verhindert und zu einer Verbesserung der FID-Werte auf MS-COCO und höheren HPSv2.1-Werten auf dem HPSv2-Testdatensatz führt.
Statistik
Unsere RG-LCMs, die vom CLIP-Score und HPSv2.1 gelernt haben, können mit nur 2-4 Samplingschritten hochwertige Bilder erzeugen.
Die 2-Schritt-Generierungen unseres RG-LCM (CLIP) werden von Menschen gegenüber den 50-Schritt-DDIM-Generierungen des Lehrmodells Stable Diffusion bevorzugt, was eine 25-fache Beschleunigung ohne Qualitätsverlust darstellt.
Durch den Einsatz eines latenten Proxy-Belohnungsmodells (LRM) können wir die Erzeugung von Hochfrequenzrauschen in den generierten Bildern verhindern und gleichzeitig die FID-Werte auf MS-COCO und die HPSv2.1-Werte auf dem HPSv2-Testdatensatz verbessern.
Citat
"Durch die Integration von Rückmeldungen eines differenzierbaren Belohnungsmodells in den Prozess der Latenzmodellkonsistenz-Destillation können hochwertige Bilder mit nur 2-4 Inferenzschritten generiert werden, was eine 25-fache Beschleunigung gegenüber dem Lehrmodell darstellt, ohne Qualitätsverluste."
"Empirisch zeigt sich, dass der Einsatz des LRM die Erzeugung von Hochfrequenzrauschen in den generierten Bildern verhindert und zu einer Verbesserung der FID-Werte auf MS-COCO und höheren HPSv2.1-Werten auf dem HPSv2-Testdatensatz führt, was die Leistung des Baseline-LCM übertrifft."