Der Artikel präsentiert SwiftBrush, ein neuartiges Verfahren zur Beschleunigung von Text-zu-Bild-Generierung durch Modell-Destillation. Anstatt auf aufwendige mehrstufige Destillationsverfahren zu setzen, die auf Bilddaten angewiesen sind, nutzt SwiftBrush Erkenntnisse aus der Text-zu-3D-Synthese, um einen effizienten einstufigen Text-zu-Bild-Generator zu destillieren.
Der Schlüssel dazu ist die Verwendung zweier Lehrermodelle - eines vortrainierten Text-zu-Bild-Modells und eines zusätzlichen LoRA-Lehrermodells. Durch die Optimierung des Schülermodells mithilfe einer Variational-Score-Distillation-Verlustfunktion, die auf den Ausgaben beider Lehrermodelle basiert, kann SwiftBrush hochwertige Bilder in einem einzigen Inferenzschritt erzeugen, ohne dabei auf Bilddaten für das Training angewiesen zu sein.
Die Experimente zeigen, dass SwiftBrush im Vergleich zu anderen Destillationsverfahren deutlich bessere Ergebnisse in Bezug auf Bildqualität und Text-Bild-Übereinstimmung erzielt, und dies bei deutlich einfacherer Trainingsprozedur. Darüber hinaus demonstriert SwiftBrush eine bemerkenswerte Kontrolle und Editierbarkeit des generierten Inhalts, was für viele Anwendungen von großem Interesse sein könnte.
To Another Language
from source content
arxiv.org
Głębsze pytania