Der Artikel untersucht den Einsatz von Führung (guidance) in Diffusionsmodellen zur Bildgenerierung. Traditionell wird Führung über die gesamte Samplingkette hinweg angewendet, was sich jedoch als suboptimal erweist.
Der Hauptbeitrag ist die Erkenntnis, dass Führung am Anfang der Kette (hohe Rauschpegel) schädlich, am Ende (niedrige Rauschpegel) weitgehend unnötig und nur in der Mitte vorteilhaft ist. Daher schlagen die Autoren vor, die Führung auf einen begrenzten Bereich der Rauschpegel zu beschränken.
Diese Methode führt zu signifikanten Verbesserungen der Bildqualität, gemessen an FID und FDDINOv2, ohne die Modellkomplexität zu erhöhen. Die Verbesserungen zeigen sich konsistent über verschiedene Architekuren, Datensätze und Samplingparameter hinweg, einschließlich des großen Stable Diffusion XL Modells.
Die Autoren empfehlen daher, den Führungsbereich als zusätzlichen Hyperparameter in Diffusionsmodellen bereitzustellen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
핵심 통찰 요약
by Tuom... 게시일 arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07724.pdf더 깊은 질문