Die Studie präsentiert eine neuartige Technik namens "Upsample Guidance", die es ermöglicht, Diffusionsmodelle auf höhere Auflösungen zu skalieren, ohne zusätzliches Training durchführen zu müssen. Stattdessen wird lediglich ein einzelner Term in den Sampling-Prozess eingefügt.
Die Kernidee besteht darin, die Konsistenz zwischen Bildern unterschiedlicher Auflösungen sicherzustellen, indem der Signal-Rausch-Abstand (SNR) und die Gesamtleistung angepasst werden. Dadurch können Diffusionsmodelle, die für niedrigere Auflösungen trainiert wurden, direkt zur Erzeugung hochauflösender Bilder verwendet werden.
Die Methode ist universell anwendbar und kann auf verschiedene Arten von Diffusionsmodellen, einschließlich Pixel-Raum-, Latenz-Raum- und Videodiffusionsmodelle, angewendet werden. Darüber hinaus ist sie kompatibel mit anderen Techniken zur Verbesserung oder Steuerung von Diffusionsmodellen.
Die Autoren zeigen, dass "Upsample Guidance" effektiv Artefakte unterdrückt, die bei höheren Auflösungen auftreten können. Darüber hinaus ermöglicht die Methode sogar die Erzeugung von Bildern mit Auflösungen, die im Trainingsdatensatz nicht enthalten waren, wie z.B. 642-Auflösung-Bilder des CIFAR-10-Datensatzes.
Zusätzlich zu Bildgenerierung demonstrieren die Autoren die Anwendbarkeit von "Upsample Guidance" auf Videogeneration, sowohl für räumliches als auch zeitliches Upsampling. Abschließend wird eine Analyse des Einflusses der Führungsskala durchgeführt, um eine ausgewogene Einstellung zwischen Bildqualität und Prompt-Ausrichtung zu finden.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor