Core Concepts
Integration harter negativer Beispiele verbessert das konzeptionelle Verständnis in multimodalem Lernen.
Abstract
Aktuelle multimodale Modelle haben Schwierigkeiten, fein abgestimmtes konzeptionelles Verständnis zu entwickeln.
Neue Methode mit harten negativen Textbeispielen führt zu feinerer visueller und textueller Konzeptausrichtung.
InpaintCOCO-Datensatz ermöglicht Bewertung der fein abgestimmten Ausrichtung von Farben, Objekten und Größen.
Experimente zeigen signifikante Verbesserungen in verschiedenen Vision-Sprache-Datensätzen.
Kontrastives Lernen mit harten Negativen verbessert das Verständnis von Farbe, Objekt, Ort und Größe.
Stats
"Ein weißer Kater sitzt unter einem schwarzen offenen Regenschirm."
"Eine Person steht auf einem Ladeplatz neben einem Zug."
"Ein Mann lehnt sich an die Tür eines kreativ bemalten Reisebusses."
"Ein brauner Kater sitzt unter einem schwarzen offenen Regenschirm."
Quotes
"Wir präsentieren eine neue Methode zur Verwendung harter negativer Proben im kontrastiven Lernziel."
"Unsere Methode verbessert die multimodale Leistung, obwohl sie ausschließlich auf der Sprachseite des Modells arbeitet."