Core Concepts
Kleinere Latent-Diffusion-Modelle können unter einem gegebenen Inferenzbudget häufig bessere Ergebnisse erzielen als größere Modelle.
Abstract
Die Studie untersucht die Skalierungseigenschaften von Latent-Diffusion-Modellen (LDMs) mit Schwerpunkt auf deren Sampling-Effizienz. Während verbesserte Netzwerkarchitekturen und Inferenz-Algorithmen die Sampling-Effizienz von Diffusions-Modellen effektiv steigern können, wurde die Rolle der Modellgröße - einem entscheidenden Faktor für die Sampling-Effizienz - bisher nicht gründlich untersucht.
Durch eine empirische Analyse etablierter Text-zu-Bild-Diffusions-Modelle führen die Autoren eine eingehende Untersuchung durch, wie sich die Modellgröße auf die Sampling-Effizienz bei unterschiedlichen Sampling-Schritten auswirkt. Die Ergebnisse zeigen einen überraschenden Trend: Wenn man unter einem gegebenen Inferenz-Budget arbeitet, übertreffen kleinere Modelle ihre größeren Pendants häufig bei der Erzeugung hochwertiger Ergebnisse.
Darüber hinaus erweitern die Autoren ihre Studie, um die Übertragbarkeit dieser Erkenntnisse zu demonstrieren, indem sie verschiedene Diffusions-Sampler, diverse Downstream-Aufgaben, destillierte Modelle und den Vergleich zur Trainingsleistung untersuchen. Diese Erkenntnisse eröffnen neue Wege für die Entwicklung von LDM-Skalierungsstrategien, die eingesetzt werden können, um die generativen Fähigkeiten innerhalb begrenzter Inferenz-Budgets zu verbessern.
Stats
Die Trainingsleistung skaliert mit der Rechenleistung.
Die Leistung im Downstream-Bereich skaliert mit der Vortrainingsleistung.
Kleinere Modelle sind effizienter beim Sampling.
Die Sampling-Effizienz ändert sich nicht mit dem verwendeten Sampler.
Kleinere Modelle sind auch bei Downstream-Aufgaben mit weniger Schritten effizienter.
Die Diffusions-Destillation ändert die Skalierungstrends nicht.
Quotes
"Kleinere Modelle können unter einem gegebenen Inferenzbudget häufig bessere Ergebnisse erzielen als größere Modelle."
"Die Vortrainingsleistung hat einen größeren Einfluss auf die Super-Auflösung-FID-Werte als die Dauer des Feinabstimmens."
"Kleinere Modelle zeigen konsistent eine überlegene Sampling-Effizienz, unabhängig vom verwendeten Diffusions-Sampler."