Temel Kavramlar
Durch Erlernen einer schichtübergreifenden orthogonalen Transformation können große Text-zu-Bild-Diffusionsmodelle effizient an Downstream-Aufgaben angepasst werden, ohne ihre semantische Generierungsfähigkeit zu verlieren.
Özet
Der Artikel stellt eine neuartige Feinabstimmungsmethode namens Orthogonal Finetuning (OFT) vor, um große Text-zu-Bild-Diffusionsmodelle an Downstream-Aufgaben anzupassen, ohne ihre Leistung bei der semantischen Bildgenerierung zu beeinträchtigen.
Im Gegensatz zu bestehenden Methoden, die entweder die Neurongewichte mit einer kleinen Lernrate aktualisieren oder eine kleine Komponente mit umparametrisierten Neurongewichten hinzufügen, kann OFT nachweislich die hyperspärische Energie, die die paarweise Neuronbeziehung auf der Einheitshypersphäre charakterisiert, erhalten. Die Autoren zeigen, dass diese Eigenschaft entscheidend für den Erhalt der semantischen Generierungsfähigkeit von Text-zu-Bild-Diffusionsmodellen ist.
Um die Stabilität der Feinabstimmung zu verbessern, schlagen die Autoren eine weitere Variante namens Constrained Orthogonal Finetuning (COFT) vor, die eine zusätzliche Radiusbeschränkung auf der Hypersphäre auferlegt.
Die Autoren wenden OFT auf zwei wichtige Text-zu-Bild-Aufgaben an: subjektgesteuerte Generierung, bei der das Ziel darin besteht, subjektspezifische Bilder unter Verwendung eines Textpromots zu generieren, und kontrollierbare Generierung, bei der das Ziel darin besteht, das Modell in die Lage zu versetzen, zusätzliche Steuersignale aufzunehmen. Die empirischen Ergebnisse zeigen, dass der OFT-Rahmen bestehende Methoden in Bezug auf Generierungsqualität und Konvergenzgeschwindigkeit übertrifft.
İstatistikler
Die Hyperspärische Energie ist definiert als die Summe der hyperspärischen Ähnlichkeit (z.B. Kosinusähnlichkeit) zwischen allen paarweisen Neuronen in derselben Schicht und charakterisiert den Grad der Neurongleichförmigkeit auf der Einheitshypersphäre.
Alıntılar
"Durch Erlernen einer schichtübergreifenden orthogonalen Transformation können große Text-zu-Bild-Diffusionsmodelle effizient an Downstream-Aufgaben angepasst werden, ohne ihre semantische Generierungsfähigkeit zu verlieren."
"Die Autoren zeigen, dass diese Eigenschaft entscheidend für den Erhalt der semantischen Generierungsfähigkeit von Text-zu-Bild-Diffusionsmodellen ist."