Die Studie untersucht die trainingsfreie Diffusionssteuerung, bei der vortrainierte Diffusionsmodelle verwendet und mit Hilfe von Netzwerken, die auf sauberen Bildern trainiert wurden, gesteuert werden.
Zunächst wird aus einer Optimierungsperspektive gezeigt, dass die trainingsfreie Steuerung darauf abzielt, den Verlust des Steuerungsnetzwerks zu minimieren. Dies unterscheidet sie von Ansätzen, die auf trainingsbasierter Steuerung beruhen.
Anschließend werden theoretisch die Anfälligkeit der trainingsfreien Steuerung für adversarische Gradienten und langsamere Konvergenzraten identifiziert. Dies wird auf eine Verringerung der Glattheit des Steuerungsnetzwerks im Vergleich zur Klassifikatorsteuerung zurückgeführt.
Um diese Einschränkungen zu überwinden, werden mehrere Verbesserungstechniken eingeführt und sowohl theoretisch als auch empirisch validiert. Dazu gehören zufällige Augmentierung, adaptive Gradientensteuerung und Neuabtastung. Die Wirksamkeit dieser Methoden wird anhand verschiedener Diffusionsmodelle (z.B. Bild- und Bewegungsdiffusion) und unter mehreren Bedingungen (z.B. Segmentierung, Skizze, Text, Objektvermeidung) empirisch bestätigt.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yifei Shen,X... a las arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12404.pdfConsultas más profundas