Der Artikel untersucht den Einsatz von Führung (guidance) in Diffusionsmodellen zur Bildgenerierung. Traditionell wird Führung über die gesamte Samplingkette hinweg angewendet, was sich jedoch als suboptimal erweist.
Der Hauptbeitrag ist die Erkenntnis, dass Führung am Anfang der Kette (hohe Rauschpegel) schädlich, am Ende (niedrige Rauschpegel) weitgehend unnötig und nur in der Mitte vorteilhaft ist. Daher schlagen die Autoren vor, die Führung auf einen begrenzten Bereich der Rauschpegel zu beschränken.
Diese Methode führt zu signifikanten Verbesserungen der Bildqualität, gemessen an FID und FDDINOv2, ohne die Modellkomplexität zu erhöhen. Die Verbesserungen zeigen sich konsistent über verschiedene Architekuren, Datensätze und Samplingparameter hinweg, einschließlich des großen Stable Diffusion XL Modells.
Die Autoren empfehlen daher, den Führungsbereich als zusätzlichen Hyperparameter in Diffusionsmodellen bereitzustellen.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Tuom... في arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07724.pdfاستفسارات أعمق