Die Studie zeigt, dass Diffusionsmodelle Samples memorieren, wenn sie auf kleinen Datensätzen
trainiert werden, aber in ein starkes Generalisierungsregime übergehen, wenn die Trainingsdatenmenge
zunimmt. In diesem Regime konvergieren sie zu einer eindeutigen Dichtemodellierung, die unabhängig
von den spezifischen Trainingsdaten ist. Die benötigte Datenmenge, um diese Übergangsphase zu
erreichen, ist sehr gering im Vergleich zu der Datenmenge, die ohne induktive Verzerrungen benötigt
würde.
Die Autoren untersuchen auch die induktiven Verzerrungen, die diese starke Generalisierung
ermöglichen. Sie zeigen, dass DNN-Denoiser eine Schrumpfung verrauschter Koeffizienten in einer
geometrie-adaptiven harmonischen Basis (GAHB) durchführen, die durch geometrische Merkmale des
Bildes geformt wird. Für die Klasse der Cα-Bilder, für die solche geometrischen Basen optimal sind,
erreichen DNN-Denoiser eine nahezu optimale Leistung. Für Bilder, die von niedrigdimensionalen
Mannigfaltigkeiten stammen, für die die optimale Basis den Tangentialraum der Mannigfaltigkeit
aufspannt, stellen die Autoren fest, dass DNN-Denoiser zwar eine gute Denoisierung innerhalb einer
an diesen Unterraum angepassten Basis erreichen, aber auch GAHB-Vektoren in den verbleibenden
unkonstrained Dimensionen einbeziehen. Das Nicht-Unterdrücken des Rauschens entlang dieser
zusätzlichen GAHB-Komponenten führt zu einer suboptimalen Denoise-Leistung.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問