Die Studie untersucht die Generierung hochauflösender Bilder aus vortrainierten Diffusionsmodellen. Dabei werden die Probleme von sich wiederholenden Mustern und strukturellen Verzerrungen adressiert, die auftreten, wenn die Modelle über ihre Trainingsauflösung hinaus angewendet werden.
Um diese Probleme zu lösen, führt FouriScale einen innovativen, trainingsfreien Ansatz aus der Perspektive der Frequenzdomänenanalyse ein. Die ursprünglichen Konvolutionsschichten in vortrainierten Diffusionsmodellen werden durch den Einsatz einer Dehnungstechnik und einer Tiefpassoperation ersetzt, um strukturelle Konsistenz bzw. Skalenkonsistenz über verschiedene Auflösungen hinweg zu erreichen.
Zusätzlich wird eine Padding-dann-Crop-Strategie eingesetzt, um flexible Text-zu-Bild-Generierung verschiedener Seitenverhältnisse zu ermöglichen. Durch die Verwendung von FouriScale als Orientierung erreicht der Ansatz eine bemerkenswerte Fähigkeit zur willkürlich großen, hochauflösenden und hochqualitativen Bildgenerierung.
Die Einfachheit und Kompatibilität von FouriScale können wertvolle Erkenntnisse für zukünftige Forschungen zur Synthese ultrahoher Auflösungen liefern.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies