Core Concepts
Effizientes Training von Diffusionsmodellen mit maskierten Transformern zur Verbesserung der Generationsleistung.
Abstract
Abstract:
Effiziente Trainingsmethode für große Diffusionsmodelle mit maskierten Transformern.
Anwendung von maskierten Transformern für generatives Lernen in der Bildverarbeitung.
Reduzierung der Trainingskosten für Diffusionsmodelle durch maskiertes Training.
Einführung:
Diffusionsmodelle sind beliebt für ihre überlegene Bildgenerierung.
Großangelegtes Training dieser Modelle erfordert erhebliche Ressourcen und Zeit.
Maskiertes Training wird vorgeschlagen, um die Effizienz des Trainings zu verbessern.
Methode:
Verwendung einer asymmetrischen Encoder-Decoder-Architektur für maskiertes Training.
Einführung eines neuen Trainingsziels mit DSM- und MAE-Verlustfunktionen.
Anpassung des Trainingsobjektivs für schnelleres und kostengünstigeres Training.
Experimente:
Vergleich der Effizienz von MaskDiT mit anderen Modellen auf ImageNet-256×256 und ImageNet-512×512.
MaskDiT zeigt bessere Trainingseffizienz und vergleichbare Generationsleistung.
Stats
Unsere Methode reduziert die Trainingskosten um 2x pro Iteration.
MaskDiT erreicht eine FID von 5,69 auf ImageNet-256×256 ohne Anleitung.
Die Gesamtkosten für das Training von MaskDiT betragen 209 A100 GPU-Tage auf ImageNet-512×512.
Quotes
"Unsere Methode zeigt eine viel bessere Trainingseffizienz in der Wanduhrzeit."
"Maskiertes Training kann die Trainingskosten von Diffusionsmodellen erheblich reduzieren."