Der Artikel stellt eine neue Methode namens "Reward Guided Latent Consistency Distillation" (RG-LCD) vor, die darauf abzielt, die Effizienz und Qualität von Text-zu-Bild-Synthesesystemen zu verbessern.
Ausgangspunkt ist die Beobachtung, dass Latenzmodellkonsistenz-Destillation (LCD) zwar eine schnelle Bildgenerierung in nur 2-4 Inferenzschritten ermöglicht, aber auf Kosten der Bildqualität. Um dies zu kompensieren, schlägt der Artikel vor, Rückmeldungen eines differenzierbaren Belohnungsmodells (RM) in den LCD-Prozess zu integrieren.
Konkret wird der LCD-Verlust um ein Ziel zur Maximierung der mit der einstufigen Bildgenerierung assoziierten Belohnung erweitert. Die Autoren bezeichnen diesen Ansatz als "Reward Guided LCD" (RG-LCD). Durch menschliche Bewertung zeigen sie, dass die 2-Schritt-Generierungen des RG-LCM den 50-Schritt-Generierungen des Lehrmodells Stable Diffusion überlegen sind, was eine 25-fache Beschleunigung ohne Qualitätsverlust darstellt.
Um das Problem der Belohnungsüberschätzung zu lösen, führen die Autoren außerdem ein latentes Proxy-Belohnungsmodell (LRM) ein, das als Vermittler zwischen dem LCM und dem RGB-basierten RM dient. Empirisch zeigt sich, dass der Einsatz des LRM die Erzeugung von Hochfrequenzrauschen in den generierten Bildern verhindert und zu einer Verbesserung der FID-Werte auf MS-COCO und höheren HPSv2.1-Werten auf dem HPSv2-Testdatensatz führt.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jiachen Li,W... kl. arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11027.pdfDybere Forespørgsler