Neue Erkenntnisse zur Rolle der Sprache bei der objektattributiven kompositionellen Verallgemeinerung von CLIP
Die Größe und Vielfalt der Trainingsdaten sowie die Sprachsupervision spielen eine Schlüsselrolle bei der Erschließung der kompositionellen Verallgemeinerungsfähigkeiten von Vision-Sprache-Modellen.