Der Artikel präsentiert SwiftBrush, ein neuartiges Verfahren zur Beschleunigung von Text-zu-Bild-Generierung durch Modell-Destillation. Anstatt auf aufwendige mehrstufige Destillationsverfahren zu setzen, die auf Bilddaten angewiesen sind, nutzt SwiftBrush Erkenntnisse aus der Text-zu-3D-Synthese, um einen effizienten einstufigen Text-zu-Bild-Generator zu destillieren.
Der Schlüssel dazu ist die Verwendung zweier Lehrermodelle - eines vortrainierten Text-zu-Bild-Modells und eines zusätzlichen LoRA-Lehrermodells. Durch die Optimierung des Schülermodells mithilfe einer Variational-Score-Distillation-Verlustfunktion, die auf den Ausgaben beider Lehrermodelle basiert, kann SwiftBrush hochwertige Bilder in einem einzigen Inferenzschritt erzeugen, ohne dabei auf Bilddaten für das Training angewiesen zu sein.
Die Experimente zeigen, dass SwiftBrush im Vergleich zu anderen Destillationsverfahren deutlich bessere Ergebnisse in Bezug auf Bildqualität und Text-Bild-Übereinstimmung erzielt, und dies bei deutlich einfacherer Trainingsprozedur. Darüber hinaus demonstriert SwiftBrush eine bemerkenswerte Kontrolle und Editierbarkeit des generierten Inhalts, was für viele Anwendungen von großem Interesse sein könnte.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Thuan Hoang ... alle arxiv.org 03-25-2024
https://arxiv.org/pdf/2312.05239.pdfDomande più approfondite