Verbesserung der Text-Bild-Ausrichtung durch Konzeptabstimmung in Diffusionsmodellen
Die Autoren schlagen CoMat vor, eine neuartige Feinabstimmungsstrategie für Diffusionsmodelle zur Text-zu-Bild-Generierung, die einen Bildunterschriftsabgleichsmechanismus nutzt, um die Ausrichtung zwischen Text und Bild zu verbessern.