Temel Kavramlar
Die Skalierung von Modellgröße und Datenmenge ist der Schlüsselfaktor für den Erfolg von Sprach- und Bildmodellen. Die Skalierungseigenschaften von diffusionsbasierten Text-zu-Bild-Modellen sind jedoch nicht gut erforscht. Diese Studie untersucht systematisch die Auswirkungen des Skalierens sowohl des Entschärfungsrückgrats als auch des Datensatzes auf die Leistung und Effizienz von Text-zu-Bild-Modellen.
Özet
Die Studie untersucht die Skalierungseigenschaften von diffusionsbasierten Text-zu-Bild-Modellen, indem sie sowohl das Entschärfungsrückgrat als auch den Datensatz skaliert.
Entschärfungsrückgrat-Skalierung:
Es wird ein kontrollierter Vergleich verschiedener UNet-Designs durchgeführt, um zu verstehen, warum bestimmte Designs deutlich besser abschneiden als andere.
Umfangreiche Ablationen der UNet-Architektur zeigen, dass die Erhöhung der Transformatortiefe effizienter ist als die Erhöhung der Kanalzahl zur Verbesserung der Text-Bild-Ausrichtung.
Ein effizienter UNet-Entwurf wird identifiziert, der 45% kleiner und 28% schneller ist als SDXL's UNet, aber ähnliche Leistung erzielt.
Der Vergleich mit skalierenden Transformator-Rückgraten zeigt, dass UNets bei ähnlicher Komplexität besser abschneiden, was auf die Bedeutung des induktiven Bias hindeutet.
Datenskalierung:
Zwei große Datensätze mit 250 Mio. und 350 Mio. Bildern werden erstellt und mit synthetischen Bildunterschriften erweitert.
Die Erhöhung der Datenmenge und -qualität verbessert die Bild-Text-Ausrichtung und Bildqualität deutlich und beschleunigt die Konvergenz.
Stärkere Modelle profitieren mehr von der Skalierung des Datensatzes.
Abschließend werden Skalierungsfunktionen abgeleitet, die die Leistung als Funktion von Modellgröße, Rechenleistung und Datenmenge vorhersagen.
İstatistikler
Die Erhöhung der Transformatortiefe von 2 auf 14 Blöcke bei 4x Downsampling verbessert den TIFA-Score kontinuierlich.
Das Erhöhen der Transformatortiefe von 2 auf 4 Blöcke bei 2x Downsampling verbessert ebenfalls den TIFA-Score.
Die Erhöhung der Kanalzahl von 320 auf 384 verbessert die Metrik im Vergleich zur Baseline mit 320 Kanälen.
Die Kombination von LensArt und SSTK-Datensätzen mit synthetischen Bildunterschriften führt zu einer 2,5-fachen Beschleunigung der Konvergenz im Vergleich zu LensArt allein.
Alıntılar
"Größere Modelle sind effizienter bei der Nutzung von Trainingsdaten, während kleinere Modelle effizienter bei der Nutzung von Rechenleistung sind."