Core Concepts
Durch die Integration von visuellen und textuellen Prompts kann die Leistung von Multimodalen Großsprachmodellen bei objektorientierten Wahrnehmungsaufgaben deutlich verbessert werden.
Abstract
Die Studie untersucht, wie Multimodale Großsprachmodelle wie GPT-4V und Gemini Pro durch den Einsatz von VTPrompt in Visual Question Answering (VQA) Aufgaben verbessert werden können. VTPrompt integriert visuelle und textuelle Prompts, um die objektorientierte Wahrnehmung, ein kritischer Bereich in dem Multimodale Großsprachmodelle Schwierigkeiten haben, signifikant zu verbessern.
Durch das Extrahieren von Schlüsselkonzepten aus den Textfragen und das Hervorheben relevanter Objekte als visuelle Prompts, stellt VTPrompt sicher, dass die Modelle präzise Objektlokalisierung und ein verbessertes Interpretationsvermögen erreichen. Die Evaluierung auf Benchmarks wie MME, MMB und POPE zeigt deutliche Leistungssteigerungen und setzt neue Bestmarken auf MMB, was die Effektivität von VTPrompt beim Überbrücken der Lücke zu menschlicher Wahrnehmung in KI-Systemen unterstreicht.
Stats
Die Leistung von GPT-4V auf dem MMB-Datensatz verbesserte sich durch den Einsatz von VTPrompt um 8,17% bei der Objektlokalisierung, 10,74% bei räumlichen Beziehungen und 19,15% bei Attributvergleichen.
Die Leistung von Gemini Pro stieg um 18,09% bei der Objektlokalisierung, 35,03% bei räumlichen Beziehungen und 16,31% bei Attributvergleichen.
Auf dem MME-Datensatz verbesserte sich die Leistung von GPT-4V um 16,74 Punkte beim Zählen, 20 Punkte bei der Farbidentifikation, 15 Punkte bei der Existenzüberprüfung und 43,33 Punkte beim Positionsverständnis.
Für Gemini Pro wurden Verbesserungen von 26 Punkten beim Zählen, 5 Punkten bei der Farbe, 10 Punkten bei der Existenz und 31,67 Punkten bei der Position erzielt.
Quotes
"Durch die Integration von visuellen und textuellen Prompts kann die Leistung von Multimodalen Großsprachmodellen bei objektorientierten Wahrnehmungsaufgaben deutlich verbessert werden."
"VTPrompt stellt sicher, dass die Modelle präzise Objektlokalisierung und ein verbessertes Interpretationsvermögen erreichen."
"Die Evaluierung auf Benchmarks wie MME, MMB und POPE zeigt deutliche Leistungssteigerungen und setzt neue Bestmarken auf MMB, was die Effektivität von VTPrompt beim Überbrücken der Lücke zu menschlicher Wahrnehmung in KI-Systemen unterstreicht."