Core Concepts
Diffusionsmodelle sind ein leistungsfähiges Konzept, das in den letzten Jahren zu beeindruckenden Fortschritten bei der Text-zu-Bild- und Text-zu-Video-Generierung geführt hat. Dieser Artikel bietet eine ausführliche Einführung in die grundlegenden Ideen und Prinzipien hinter Diffusionsmodellen.
Abstract
Dieser Artikel bietet eine umfassende Einführung in Diffusionsmodelle, eine neue Klasse generativer Modelle, die in den letzten Jahren große Fortschritte in der Text-zu-Bild- und Text-zu-Video-Generierung ermöglicht haben.
Der Artikel beginnt mit einer Erläuterung des Variational Autoencoder (VAE), einem klassischen generativen Modell. Hier werden die grundlegenden Konzepte wie die Evidence Lower Bound (ELBO) und die Funktionsweise von Encoder und Decoder erklärt.
Anschließend wird das Denoising Diffusion Probabilistic Model (DDPM) als eine spezielle Form von Diffusionsmodellen vorgestellt. Die Autoren erläutern die Struktur des DDPM, bestehend aus Übergangsblöcken, Anfangs- und Endblöcken. Zentral sind hier die magischen Skalare √αt und 1-αt, die die Übergänge zwischen den Zuständen xt-1 und xt steuern.
Weiterhin wird die bedingte Verteilung qϕ(xt|x0) hergeleitet, die es ermöglicht, den Zustand xt direkt aus dem Ausgangszustand x0 zu berechnen, anstatt die gesamte Kette der Übergänge durchlaufen zu müssen.
Schließlich wird die ELBO-Formulierung für das DDPM-Modell hergeleitet, die sich aus drei Komponenten zusammensetzt: Rekonstruktion, Anpassung an die Priori-Verteilung und Konsistenz zwischen Vorwärts- und Rückwärtsübergängen.
Insgesamt bietet der Artikel eine sehr gründliche und verständliche Einführung in die Grundlagen von Diffusionsmodellen, die für Studierende und Forscher, die sich mit diesem Thema beschäftigen, sehr hilfreich sein kann.
Stats
Die Verteilung von xt kann rekursiv über pt(x) = Σk πk N(x | √αt μk, (1-αt)I + αt σ²k I) berechnet werden.
Der Übergang von xt-1 zu xt erfolgt gemäß xt = √αt xt-1 + √(1-αt) ε, wobei ε ~ N(0, I).
Quotes
"Diffusionsmodelle sind inkrementelle Updates, bei denen die Zusammensetzung des Ganzen uns die Encoder-Decoder-Struktur gibt. Der Übergang von einem Zustand zum nächsten wird durch einen Denoiser realisiert."
"Biege dich Zoll für Zoll in die gewünschte Richtung!" (Sergio Goma)