Effizientes Lernen von Sprach-Bild-Modellen durch zentriertes Maskieren
Wir stellen einen neuartigen, einfachen und effektiven Ansatz zum Maskieren von Bildpatches während des Vortrainings eines Sprach-Bild-Modells vor. Unser Ansatz, genannt Gaussian Masking for Language-Image Pre-Training (GLIP), ersetzt das zufällige Maskieren durch ein zentriertes Maskieren, das auf einer Gaußverteilung basiert und von der Bedeutung der Bildpatches im Zentrum des Bildes inspiriert ist. GLIP behält die gleichen Einsparungen bei Rechenressourcen wie der bestehende Ansatz FLIP, verbessert aber die Leistung über eine Reihe von nachgelagerten Datensätzen und Aufgaben hinweg.