Der Artikel untersucht den Einsatz von Führung (guidance) in Diffusionsmodellen zur Bildgenerierung. Traditionell wird Führung über die gesamte Samplingkette hinweg angewendet, was sich jedoch als suboptimal erweist.
Der Hauptbeitrag ist die Erkenntnis, dass Führung am Anfang der Kette (hohe Rauschpegel) schädlich, am Ende (niedrige Rauschpegel) weitgehend unnötig und nur in der Mitte vorteilhaft ist. Daher schlagen die Autoren vor, die Führung auf einen begrenzten Bereich der Rauschpegel zu beschränken.
Diese Methode führt zu signifikanten Verbesserungen der Bildqualität, gemessen an FID und FDDINOv2, ohne die Modellkomplexität zu erhöhen. Die Verbesserungen zeigen sich konsistent über verschiedene Architekuren, Datensätze und Samplingparameter hinweg, einschließlich des großen Stable Diffusion XL Modells.
Die Autoren empfehlen daher, den Führungsbereich als zusätzlichen Hyperparameter in Diffusionsmodellen bereitzustellen.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Tuom... klokken arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07724.pdfDypere Spørsmål