Die Studie untersucht die trainingsfreie Diffusionssteuerung, bei der vortrainierte Diffusionsmodelle verwendet und mit Hilfe von Netzwerken, die auf sauberen Bildern trainiert wurden, gesteuert werden.
Zunächst wird aus einer Optimierungsperspektive gezeigt, dass die trainingsfreie Steuerung darauf abzielt, den Verlust des Steuerungsnetzwerks zu minimieren. Dies unterscheidet sie von Ansätzen, die auf trainingsbasierter Steuerung beruhen.
Anschließend werden theoretisch die Anfälligkeit der trainingsfreien Steuerung für adversarische Gradienten und langsamere Konvergenzraten identifiziert. Dies wird auf eine Verringerung der Glattheit des Steuerungsnetzwerks im Vergleich zur Klassifikatorsteuerung zurückgeführt.
Um diese Einschränkungen zu überwinden, werden mehrere Verbesserungstechniken eingeführt und sowohl theoretisch als auch empirisch validiert. Dazu gehören zufällige Augmentierung, adaptive Gradientensteuerung und Neuabtastung. Die Wirksamkeit dieser Methoden wird anhand verschiedener Diffusionsmodelle (z.B. Bild- und Bewegungsdiffusion) und unter mehreren Bedingungen (z.B. Segmentierung, Skizze, Text, Objektvermeidung) empirisch bestätigt.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yifei Shen,X... klokken arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12404.pdfDypere Spørsmål