Core Concepts
Latente Adversariale Diffusions-Destillation (LADD) ist ein neuartiger Destillationsansatz, der die Leistungsfähigkeit von Diffusionsmodellen bei der hochauflösenden Bildgenerierung mit wenigen Schritten ermöglicht.
Abstract
Der Artikel präsentiert einen neuartigen Destillationsansatz namens Latente Adversariale Diffusions-Destillation (LADD), der die Leistungsfähigkeit von Diffusionsmodellen bei der hochauflösenden Bildgenerierung mit wenigen Schritten ermöglicht.
Im Gegensatz zu bisherigen Ansätzen wie Adversarial Diffusion Distillation (ADD) nutzt LADD generative Merkmale aus vortrainierten latenten Diffusionsmodellen anstelle diskriminativer Merkmale. Dies vereinfacht das Training und verbessert die Leistung, da es die Notwendigkeit des Decodierens in den Pixelraum eliminiert.
LADD wird auf das Stable Diffusion 3 (8B) Modell angewendet, um SD3-Turbo zu erhalten - ein schnelles Modell, das die Leistung state-of-the-art Text-zu-Bild-Generatoren mit nur vier ungeleiteten Samplingschritten erreicht. Darüber hinaus wird das Skalierungsverhalten systematisch untersucht und die Effektivität von LADD in verschiedenen Anwendungen wie Bildbearbeitung und Inpainting demonstriert.
Stats
Diffusionsmodelle erfordern üblicherweise Dutzende von Netzwerkevaluierungen, um von Rauschen zu Daten zu gelangen, was die Abtastgeschwindigkeit insbesondere für große Modelle begrenzt.
Adversariale Diffusions-Destillation (ADD) ist der derzeitige Stand der Technik für die Erzeugung von Einzelbildern in Echtzeit, erfordert aber die Verwendung eines fixierten und vortrainierten DINOv2-Netzwerks als Diskriminator, was die Auflösung und Kontrolle der Diskriminatorfunktionen einschränkt.
LADD nutzt stattdessen generative Merkmale aus vortrainierten latenten Diffusionsmodellen, was die Notwendigkeit des Decodierens in den Pixelraum eliminiert und die Kontrolle über die Diskriminatorfunktionen verbessert.
Quotes
"Latente Adversariale Diffusions-Destillation (LADD) ist ein neuartiger Destillationsansatz, der die Leistungsfähigkeit von Diffusionsmodellen bei der hochauflösenden Bildgenerierung mit wenigen Schritten ermöglicht."
"Im Gegensatz zu bisherigen Ansätzen wie Adversarial Diffusion Distillation (ADD) nutzt LADD generative Merkmale aus vortrainierten latenten Diffusionsmodellen anstelle diskriminativer Merkmale."