Core Concepts
InstaFlow ist ein hochqualitatives einstufiges Text-zu-Bild-Modell, das auf Stable Diffusion basiert und in nur 0,09 Sekunden realistische Bilder mit ähnlicher Bildqualität wie StyleGAN-T generieren kann.
Abstract
Der Artikel stellt InstaFlow vor, ein neuartiges einstufiges Text-zu-Bild-Modell, das auf Stable Diffusion basiert. Im Gegensatz zu herkömmlichen Diffusionsmodellen, die oft Dutzende von Inferenzschritten benötigen, um zufriedenstellende Ergebnisse zu erzielen, kann InstaFlow hochqualitative Bilder in nur einem einzigen Schritt generieren.
Der Schlüssel zu diesem Durchbruch ist die Verwendung einer Methode namens Rectified Flow, die die Trajektorien der Wahrscheinlichkeitsströme begradigt und die Kopplung zwischen Rauschen und Bildern verfeinert. Dadurch wird der Destillationsprozess erheblich erleichtert, so dass das einstufige Studentenmodell die Leistung des mehrstufigen Lehrermodells Stable Diffusion erreichen kann.
InstaFlow-0.9B erzielt auf MS COCO 2017 einen FID-Wert von 23,4 in nur 0,09 Sekunden, was deutlich besser ist als der vorherige Spitzenwert von 37,2 für Progressive Distillation. Durch Skalierung des Modells auf 1,7 Milliarden Parameter wird der FID-Wert sogar auf 22,4 verbessert. Auf MS COCO 2014 übertrifft InstaFlow-0.9B mit einem FID von 13,1 in 0,09 Sekunden sogar den aktuellen Spitzenreiter StyleGAN-T.
Insgesamt zeigt der Artikel, dass Rectified Flow ein entscheidender Schritt ist, um hochqualitative einstufige Diffusionsmodelle für die Text-zu-Bild-Generierung zu entwickeln. Die vorgestellten Modelle bieten eine beeindruckende Leistung bei gleichzeitig geringem Rechenaufwand.
Stats
Stable Diffusion benötigt üblicherweise mehr als 20 Schritte, um akzeptable Bilder zu generieren.
InstaFlow-0.9B erzielt einen FID-Wert von 23,4 auf MS COCO 2017 in nur 0,09 Sekunden.
InstaFlow-1.7B erzielt einen FID-Wert von 22,4 auf MS COCO 2017 in 0,12 Sekunden.
InstaFlow-0.9B erzielt einen FID-Wert von 13,1 auf MS COCO 2014 in 0,09 Sekunden.
Quotes
"InstaFlow ist ein hochqualitatives einstufiges Text-zu-Bild-Modell, das auf Stable Diffusion basiert und in nur 0,09 Sekunden realistische Bilder mit ähnlicher Bildqualität wie StyleGAN-T generieren kann."
"Rectified Flow ist ein entscheidender Schritt, um hochqualitative einstufige Diffusionsmodelle für die Text-zu-Bild-Generierung zu entwickeln."