Die Studie untersucht, wie die Qualität der Text-zu-Bild-Generierung in einem Schritt verbessert werden kann. Dazu wird ein leichtgewichtiges Modell vorgestellt, das die Parameter einer Gaußverteilung für den Rauscheingang vorhersagt, um die vom Benutzer präferierten Bilder zu erzeugen.
Zunächst wird ein Verfahren entwickelt, bei dem über alle Prompts hinweg eine optimale Rauschverteilung gefunden wird. Darauf aufbauend wird dann ein prompt-adaptives Verfahren (PAHI) eingeführt, das für jeden individuellen Prompt eine angepasste Rauschverteilung vorhersagt.
Die Experimente zeigen, dass die angepassten Rauschverteilungen die Bildqualität deutlich verbessern können, ohne den Rechenaufwand signifikant zu erhöhen. Im Vergleich zu Diffusionsmodellen mit nur einem oder zwei Samplingschritten erreicht PAHI eine höhere Bildqualität bei ähnlicher Inferenzzeit. Die Ergebnisse unterstreichen die Bedeutung der Rauschoptimierung und ebnen den Weg für eine effiziente und hochwertige Text-zu-Bild-Synthese.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jeeyung Kim,... a las arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00879.pdfConsultas más profundas