In dieser Arbeit betrachten die Autoren ein weit verbreitetes Problem bei der Anwendung von Diffusions-Probabilistischen Modellen (DPMs), nämlich die Optimierung der DPM-Parameter, wenn das Ziel eine differenzierbare Metrik ist, die auf den generierten Inhalten definiert ist. Da der Sampling-Prozess von DPMs rekursive Aufrufe des denoising UNet erfordert, führt die naive Gradientenrückpropagation zu einem extrem hohen Speicherverbrauch.
Um dieses Problem zu lösen, schlagen die Autoren eine neuartige Methode namens AdjointDPM vor. Zunächst erzeugt AdjointDPM neue Samples aus Diffusions-Modellen, indem es die entsprechenden Wahrscheinlichkeitsfluss-ODEs löst. Dann verwendet es die Adjoint-Sensitivitätsmethode, um die Gradienten des Verlusts in Bezug auf die Modellparameter (einschließlich Konditionierungssignale, Netzwerkgewichte und Anfangsrauschen) durch Lösen einer anderen erweiterten ODE zurückzupropagieren.
Um numerische Fehler sowohl im vorwärts gerichteten Generierungs- als auch im Gradientenrückpropagations-Prozess zu reduzieren, parametrisieren die Autoren die Wahrscheinlichkeitsfluss-ODE und die erweiterte ODE als einfache nicht-steife ODEs unter Verwendung der exponentiellen Integration neu.
AdjointDPM kann die Gradienten aller Arten von Parametern in DPMs effektiv berechnen, einschließlich der Netzwerkgewichte, der Konditionierungstextprompts und der verrauschten Zustände. Schließlich demonstrieren die Autoren die Effektivität von AdjointDPM anhand mehrerer interessanter Aufgaben: geführte Generierung durch Modifikation von Sampling-Trajektorien, Feinabstimmung von DPM-Gewichten für Stilisierung und Umwandlung von visuellen Effekten in Texteinbettungen.
翻譯成其他語言
從原文內容
arxiv.org
深入探究