Effiziente Verbesserung der visuell-sprachlichen Repräsentationslernung durch Nutzung von Multimodalen Großen Sprachmodellen
Multimodale Große Sprachmodelle können die visuell-sprachliche Repräsentationslernung durch Etablierung reichhaltigerer Bild-Text-Assoziationen für Bild-Text-Datensätze verbessern.