Die Studie untersucht die Fähigkeit von CLIP-Modellen, neue Kombinationen von bekannten Konzepten zu verallgemeinern. Es wurde ein neuartiger Benchmark-Datensatz namens ImageNet-AO entwickelt, der Bilder mit ungewöhnlichen Attribut-Objekt-Kombinationen enthält, die nicht in den Trainingsdaten der CLIP-Modelle vorkommen.
Die Ergebnisse zeigen, dass CLIP-Modelle, die auf großen und vielfältigen Datensätzen wie LAION-400M und LAION-2B trainiert wurden, eine deutlich bessere kompositionelle Out-of-Distribution-Generalisierung aufweisen als Modelle, die auf kleineren Datensätzen wie CC-12M und YFCC-15M trainiert wurden. Dies deutet darauf hin, dass die Skalierung und Diversität der Trainingsdaten sowie die Sprachsupervision eine Schlüsselrolle bei der Erschließung der kompositionellen Verallgemeinerungsfähigkeiten von Vision-Sprache-Modellen spielen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Reza Abbasi,... at arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18525.pdfDeeper Inquiries