Der Artikel stellt ElasticDiffusion vor, eine neuartige Methode zur Bildgenerierung mit vortrainierten Diffusionsmodellen, die es ermöglicht, Bilder in beliebigen Größen und Seitenverhältnissen zu erzeugen, ohne zusätzliches Training.
Kernidee ist es, den Generierungsprozess in globale und lokale Signale zu unterteilen. Das globale Signal steuert die übergeordnete Struktur und Komposition des Bildes, während das lokale Signal für die detaillierten Pixelinformationen verantwortlich ist.
Durch diese Trennung kann das lokale Signal auf Bildausschnitten berechnet werden, während das globale Signal aus einer Referenzvorlage abgeleitet und hochskaliert wird. Dies ermöglicht die Generierung von Bildern in verschiedenen Größen und Formaten, ohne die Leistungsfähigkeit des zugrunde liegenden Diffusionsmodells einzuschränken.
Die Autoren präsentieren mehrere Techniken, um die Bildqualität weiter zu verbessern, wie eine effiziente Methode zum Zusammenfügen der Bildausschnitte, eine neuartige Führungsstrategie zur Reduzierung von Artefakten sowie ein iteratives Upsampling-Verfahren für das globale Signal.
Die Experimente zeigen, dass ElasticDiffusion im Vergleich zu bestehenden Ansätzen deutlich kohärentere Bilder in verschiedenen Größen und Seitenverhältnissen generiert, ohne zusätzliches Training zu erfordern.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Moayed Haji-... kl. arxiv.org 04-02-2024
https://arxiv.org/pdf/2311.18822.pdfDybere Forespørgsler