Conceitos essenciais
Multimodale Große Sprachmodelle können die visuell-sprachliche Repräsentationslernung durch Etablierung reichhaltigerer Bild-Text-Assoziationen für Bild-Text-Datensätze verbessern.
Resumo
Die Studie zeigt, dass Multimodale Große Sprachmodelle (MLLMs) die visuell-sprachliche Repräsentationslernung verbessern können, indem sie reichhaltigere Bild-Text-Assoziationen für Bild-Text-Datensätze schaffen. Der Ansatz nutzt MLLMs, um diverse Bildunterschriften für jedes Bild zu generieren. Um die Qualität und Verfügbarkeit der erweiterten Bildunterschriften zu erhalten, wird "Text Shearing" vorgeschlagen, um Halluzinationen und monotone Sprachstile der MLLMs zu reduzieren.
Die Ergebnisse zeigen signifikante Leistungsverbesserungen über verschiedene visuell-sprachliche Vortrainingsrahmen und Datensätze hinweg, ohne zusätzliche Trainingskosten zu verursachen. Im Nullshot-Bild-Text-Retrieval erzielen die Autoren 16,8 % bis 46,1 % Verbesserung bei Recall@1. Im Nullshot-Bildklassifizierung erreichen sie durchschnittlich 13,4 Punkte Verbesserung auf 15 gängigen Klassifizierungsdatensätzen und 13,1 Punkte auf ImageNet. Darüber hinaus übertrifft ihr Nullshot-CLIP-Modell das feinabgestimmte CLIP-Modell auf den MSCOCO- und Flickr30K-Datensätzen.
Estatísticas
Die Entfernung eines großen Anteils an falsch zugeordneten Bild-Text-Paaren führt zu einem erheblichen Leistungsrückgang bei der Bild-Text-Suche.
Die übermäßige Umschreibung von Bildunterschriften durch MLLMs führt ebenfalls zu nicht-trivialen Leistungseinbußen.
Unterschiedliche MLLMs haben unterschiedliche inhärente Textstrukturen, Aufmerksamkeitsfoki und Worthäufigkeitsstatistiken.
Citações
"MLLMs können die visuell-sprachliche Repräsentationslernung durch Etablierung reichhaltigerer Bild-Text-Assoziationen für Bild-Text-Datensätze verbessern."
"Um die Qualität und Verfügbarkeit der erweiterten Bildunterschriften zu erhalten, wird 'Text Shearing' vorgeschlagen, um Halluzinationen und monotone Sprachstile der MLLMs zu reduzieren."
"Die Ergebnisse zeigen signifikante Leistungsverbesserungen über verschiedene visuell-sprachliche Vortrainingsrahmen und Datensätze hinweg, ohne zusätzliche Trainingskosten zu verursachen."