Diffusionsmodelle, die durch iterative Anwendung eines trainierten DNN-Denoisers arbeiten, haben alle bisherigen Methoden zum Lernen von Wahrscheinlichkeitsmodellen für Bilder übertroffen. Ihre Trainingsziele (Minimierung des quadratischen Denoise-Fehlers) sind einfach und robust, und sie erzeugen Samples von beeindruckender Qualität. In dieser Arbeit erläutern wir die Approximationseigenschaften, die diesem Erfolg zugrunde liegen, indem wir den trainierten Denoiser analysieren, der direkt mit der Scorefunktion und der Dichte, aus der die Samples gezogen werden, in Verbindung steht.
Diffusionsmodelle für Bildgenerierung durchlaufen einen Prozess, bei dem zunächst grobe Umrisse und Layout entstehen und dann nach und nach feinere Details hinzugefügt werden.