Die Studie untersucht die Generierung hochauflösender Bilder aus vortrainierten Diffusionsmodellen. Dabei werden die Probleme von sich wiederholenden Mustern und strukturellen Verzerrungen adressiert, die auftreten, wenn die Modelle über ihre Trainingsauflösung hinaus angewendet werden.
Um diese Probleme zu lösen, führt FouriScale einen innovativen, trainingsfreien Ansatz aus der Perspektive der Frequenzdomänenanalyse ein. Die ursprünglichen Konvolutionsschichten in vortrainierten Diffusionsmodellen werden durch den Einsatz einer Dehnungstechnik und einer Tiefpassoperation ersetzt, um strukturelle Konsistenz bzw. Skalenkonsistenz über verschiedene Auflösungen hinweg zu erreichen.
Zusätzlich wird eine Padding-dann-Crop-Strategie eingesetzt, um flexible Text-zu-Bild-Generierung verschiedener Seitenverhältnisse zu ermöglichen. Durch die Verwendung von FouriScale als Orientierung erreicht der Ansatz eine bemerkenswerte Fähigkeit zur willkürlich großen, hochauflösenden und hochqualitativen Bildgenerierung.
Die Einfachheit und Kompatibilität von FouriScale können wertvolle Erkenntnisse für zukünftige Forschungen zur Synthese ultrahoher Auflösungen liefern.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Linjiang Hua... : arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12963.pdfDaha Derin Sorular