מושגי ליבה
Multimodale Large Language Models (MLLMs) neigen oft zu einer übermäßigen Abhängigkeit von unimodalen Verzerrungen (z.B. Sprachverzerrung und Sichtverzerrung), was zu falschen Antworten in komplexen multimodalen Aufgaben führt. Um dieses Problem zu untersuchen, schlagen wir einen kausalen Rahmen vor, um die Verzerrungen in Visual Question Answering (VQA)-Problemen zu interpretieren. Basierend darauf erstellen wir einen neuen Datensatz namens MORE, der MLLMs herausfordert, unimodalen Verzerrungen zu überwinden und Mehrfachschlussfolgerungen durchzuführen. Darüber hinaus schlagen wir zwei Strategien vor, um unimodalen Verzerrungen entgegenzuwirken und die Schlussfolgerungsfähigkeiten von MLLMs zu verbessern.
תקציר
Der Artikel untersucht die Problematik der übermäßigen Abhängigkeit von unimodalen Verzerrungen (Sprach- und Sichtverzerrungen) in Multimodalen Large Language Models (MLLMs) bei der Lösung von Visual Question Answering (VQA)-Problemen.
Zunächst wird ein kausaler Rahmen vorgestellt, um diese Verzerrungen zu interpretieren und zu quantifizieren. Dazu wird ein Kausalmodell definiert, das die verschiedenen Faktoren abbildet, die die Vorhersagen von MLLMs beeinflussen können. Anhand dieses Modells können die kausalen Effekte von Sprach- und Sichtverzerrungen auf die Vorhersagefähigkeiten der Modelle untersucht werden.
Basierend auf dieser kausalen Analyse wird ein neuer Datensatz namens MORE erstellt, der 12.000 VQA-Instanzen umfasst. Dieser Datensatz ist so konzipiert, dass er MLLMs herausfordert, unimodale Verzerrungen zu überwinden und Mehrfachschlussfolgerungen durchzuführen. Jede Instanz besteht aus einem Bild, einer Frage und vier Antwortoptionen, von denen eine korrekt ist und drei Ablenkoptionen, die auf Sprach- und Sichtverzerrungen sowie mehrstufiges Schlussfolgern abzielen.
Die Evaluierung von sechs führenden MLLMs auf dem MORE-Datensatz zeigt, dass die meisten Modelle deutlich schlechter abschneiden, was auf ihre Anfälligkeit für unimodale Verzerrungen hindeutet. Dies verdeutlicht, dass die Modelle noch Schwierigkeiten haben, präzises semantisches Verständnis bei der Bewältigung multimodaler Schlussfolgerungsaufgaben zu erreichen.
Um die unimodalen Verzerrungen abzumildern und die Schlussfolgerungsfähigkeiten der MLLMs zu verbessern, werden zwei Strategien vorgestellt:
Der Einsatz eines Decompose-Verify-Answer (DeVA)-Frameworks für den Einsatz mit eingeschränkten MLLMs wie GPT-4V und Gemini Pro, um sie schrittweise zur Extraktion von Informationen aus mehreren Modalitäten anzuleiten.
Das Finetuning von Open-Source-MLLMs wie LLaVA auf Basis des MORE-Datensatzes, um ihre Mehrfachschlussfolgerungsfähigkeiten zu verbessern.
Die Ergebnisse zeigen, dass beide Strategien die Leistung der Modelle auf verschiedenen Datensätzen deutlich verbessern können, insbesondere auf dem herausfordernden MORE-Datensatz.
סטטיסטיקה
Die nächste Fußball-Weltmeisterschaft nach diesem Austragungsort ist die Weltmeisterschaft 2022 in Katar.
Das repräsentative Gebäude des Architekten dieses Gebäudes in Berlin ist der Potsdamer Platz.
ציטוטים
"Recent advancements in Large Language Mod-els (LLMs) have facilitated the development of Multimodal LLMs (MLLMs)."
"Despite their impressive capabilities, MLLMs often suffer from an over-reliance on unimodal biases (e.g., language bias and vision bias), leading to in-correct answers in complex multimodal tasks."