Die Verbesserung der Darstellung expliziter räumlicher Beziehungen in Text-zu-Bild-Systemen durch ein automatisch abgeleitetes Datenset führt zu signifikanten Leistungssteigerungen.
SCott kombiniert SDE-Solver mit Konsistenzdestillation, um die Leistung von Lehrermodellen zu verbessern und hochwertige Bilder mit wenigen Schritten zu generieren.
Verbesserung der Text-zu-Bild-Generierung durch Stärkung der diskriminativen Fähigkeiten von Modellen.
CogView3 ist ein innovatives Modell, das die Text-zu-Bild-Diffusion durch Relay-Diffusion verbessert und dabei die Leistung steigert und die Kosten reduziert.
Gewinnende Tickets in zufällig initialisierten Rauschbildern ermöglichen die Generierung spezifischer Konzepte.
LaVi-Bridge ist ein flexibler Rahmen, der die Integration verschiedener, bereits trainierter Sprachmodelle und generativer Visionsmodelle für die Text-zu-Bild-Generierung ermöglicht, ohne die Originalgewichte der Modelle ändern zu müssen.