Core Concepts
Effizientes Training von Diffusionsmodellen mit maskierten Transformern zur Verbesserung der Generationsleistung.
Stats
Unsere Methode reduziert die Trainingskosten um 2x pro Iteration.
MaskDiT erreicht eine FID von 5,69 auf ImageNet-256×256 ohne Anleitung.
Die Gesamtkosten für das Training von MaskDiT betragen 209 A100 GPU-Tage auf ImageNet-512×512.
Quotes
"Unsere Methode zeigt eine viel bessere Trainingseffizienz in der Wanduhrzeit."
"Maskiertes Training kann die Trainingskosten von Diffusionsmodellen erheblich reduzieren."