In dieser Arbeit stellen wir eine allgemeine Methode vor, um ein einschrittiges Diffusionsmodell, wie SD-Turbo [54], durch adversarisches Lernen an neue Aufgaben und Domänen anzupassen. Damit können wir das interne Wissen von vortrainierten Diffusionsmodellen nutzen und gleichzeitig eine effiziente Inferenz (z.B. 0,3 Sekunden für ein 512x512-Bild) erreichen.
Unser einschrittiges Bildübersetzungsmodell, genannt CycleGAN-Turbo und pix2pix-Turbo, kann realistische Ausgaben für ungekoppelte (oben) und gekoppelte Einstellungen (unten) in verschiedenen Aufgaben synthetisieren.
Wir konzentrieren uns hauptsächlich auf die schwierigeren ungekoppelten Übersetzungsaufgaben, wie die Umwandlung von Tag zu Nacht und umgekehrt sowie das Hinzufügen/Entfernen von Wettereffekten zu/von Bildern. Wir zeigen, dass unser Modell CycleGAN-Turbo sowohl in Bezug auf die Verteilungsanpassung als auch auf die Erhaltung der Eingabestruktur deutlich besser abschneidet als bestehende GAN- und Diffusionsbasierte Methoden, bei gleichzeitig größerer Effizienz als diffusionsbasierte Methoden.
Darüber hinaus demonstrieren wir die Vielseitigkeit unserer Architektur, indem wir Experimente für gekoppelte Einstellungen wie Edge2Image oder Sketch2Photo durchführen. Unser Modell namens pix2pix-Turbo erzielt visuell vergleichbare Ergebnisse mit aktuellen bedingten Diffusionsmodellen, reduziert aber die Anzahl der Inferenzschritte auf 1.
Insgesamt legt unsere Arbeit nahe, dass einschrittige vorgelernte Text-zu-Bild-Modelle als starke und vielseitige Rückgratmodelle für viele nachgelagerte Bildsyntheseaufgaben dienen können.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문