Effiziente Erstellung von Bild-Text-Paaren durch Nutzung von Großen Sprachmodellen und Bild-Generatoren zur Verbesserung von Visual-Language-Modellen
Durch die Nutzung von Großen Sprachmodellen und Bild-Generatoren können effizient synthetische Bild-Text-Paare erstellt werden, um die Leistung von Visual-Language-Modellen zu verbessern.