Die Studie untersucht, wie die Qualität der Text-zu-Bild-Generierung in einem Schritt verbessert werden kann. Dazu wird ein leichtgewichtiges Modell vorgestellt, das die Parameter einer Gaußverteilung für den Rauscheingang vorhersagt, um die vom Benutzer präferierten Bilder zu erzeugen.
Zunächst wird ein Verfahren entwickelt, bei dem über alle Prompts hinweg eine optimale Rauschverteilung gefunden wird. Darauf aufbauend wird dann ein prompt-adaptives Verfahren (PAHI) eingeführt, das für jeden individuellen Prompt eine angepasste Rauschverteilung vorhersagt.
Die Experimente zeigen, dass die angepassten Rauschverteilungen die Bildqualität deutlich verbessern können, ohne den Rechenaufwand signifikant zu erhöhen. Im Vergleich zu Diffusionsmodellen mit nur einem oder zwei Samplingschritten erreicht PAHI eine höhere Bildqualität bei ähnlicher Inferenzzeit. Die Ergebnisse unterstreichen die Bedeutung der Rauschoptimierung und ebnen den Weg für eine effiziente und hochwertige Text-zu-Bild-Synthese.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Jeeyung Kim,... um arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00879.pdfTiefere Fragen