Ferret-v2 bietet erhebliche Verbesserungen gegenüber Ferret und anderen State-of-the-Art-Methoden durch seine Fähigkeit, hochauflösende Bilder zu verarbeiten und feinkörnige visuelle Informationen zu verstehen.
TinyGPT-V ist ein neuartiges, quelloffenes multimodales großes Sprachmodell, das für effizientes Training und Inferenz in verschiedenen Bild-Sprache-Aufgaben wie Bildunterschriften und visuelle Fragebeantworung entwickelt wurde. Durch eine kompakte, aber leistungsfähige Architektur, die den Phi-2-Sprachmodell mit vortrainierten Bildcodierern kombiniert, benötigt TinyGPT-V deutlich weniger Rechenressourcen - nur 24 GB für das Training und bis zu 8 GB für die Inferenz - ohne Leistungseinbußen.
ModaVerse ist ein multimodales Sprachmodell, das in der Lage ist, Inhalte über verschiedene Modalitäten hinweg zu verstehen und zu transformieren, indem es eine effiziente Kombination aus Adaptortraining und LLM-als-Agent-Ansatz verwendet.
Ein neues multimodales Sprachmodell namens SPHINX-V, das vielversprechende Fähigkeiten im pixelgenauen Bildverständnis zeigt. Mit dem vorgeschlagenen visuellen Eingabeaufforderungsencoder und der zweistufigen Trainingsstrategie kann SPHINX-V verschiedene Arten von visuellen Eingabeaufforderungen, einschließlich Punkte, Kästen und freie Formen, unterstützen, was die Benutzerflexibilität deutlich erhöht.
In dieser Studie untersuchen wir, wie die Zwischenschichten multimodaler großer Sprachmodelle mehr globale semantische Informationen kodieren können als die obersten Schichten, die sich stattdessen stärker auf lokale Informationen konzentrieren.
Große Sprachmodelle können durch kontrastives Prompt-Tuning für visuelle Klassifizierungsaufgaben angepasst werden und übertreffen dabei bestehende multimodale Sprachmodelle deutlich.
Multimodale Large Language Models (MLLMs) neigen oft zu einer übermäßigen Abhängigkeit von unimodalen Verzerrungen (z.B. Sprachverzerrung und Sichtverzerrung), was zu falschen Antworten in komplexen multimodalen Aufgaben führt. Um dieses Problem zu untersuchen, schlagen wir einen kausalen Rahmen vor, um die Verzerrungen in Visual Question Answering (VQA)-Problemen zu interpretieren. Basierend darauf erstellen wir einen neuen Datensatz namens MORE, der MLLMs herausfordert, unimodalen Verzerrungen zu überwinden und Mehrfachschlussfolgerungen durchzuführen. Darüber hinaus schlagen wir zwei Strategien vor, um unimodalen Verzerrungen entgegenzuwirken und die Schlussfolgerungsfähigkeiten von MLLMs zu verbessern.
Dieser Artikel präsentiert Visual CoT, eine neuartige Pipeline, die die Reasoning-Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) durch den Einsatz visueller Kette des Denkens (CoT) erweitert.
Multimodale Sprachmodelle (MLLMs) neigen dazu, visuelle Halluzinationen zu erzeugen, bei denen die generierten Antworten von den bereitgestellten Bildern abweichen. Unsere Untersuchung zeigt, dass die visuelle Komponente der MLLMs sowohl akkurate als auch nicht-existente Inhalte gleichzeitig befürworten kann. Um dieses Problem anzugehen, schlagen wir Pensieve vor, eine trainingsfreie Methode, bei der die MLLMs während der Inferenz relevante Bilder als Referenzen abrufen und sie mit dem Testbild vergleichen. Dieser retrospektive Vergleich hilft den MLLMs, fehlerhafte Inhalte, die fälschlicherweise durch die visuellen Eingaben unterstützt werden, herabzustufen.
Durch eine Kette-von-Gedanken-Aufforderungsstrategie können multimodale große Sprachmodelle mit Segmentierungsfähigkeit ausgestattet werden, ohne ihre ursprüngliche Dialogfähigkeit zu beeinträchtigen.