Der Artikel stellt einen neuen Datensatz namens VISREAS vor, der aus 2,07 Millionen semantisch vielfältigen Abfragen besteht, die automatisch unter Verwendung von Visual Genome-Szenegraphen generiert wurden. VISREAS enthält sowohl beantwortbare als auch nicht beantwortbare visuelle Abfragen, die durch das Durchlaufen und Verändern von Gemeinsamkeiten und Unterschieden zwischen Objekten, Attributen und Beziehungen formuliert wurden.
Das einzigartige Merkmal dieser Aufgabe ist die Validierung der Beantwortbarkeit einer Frage in Bezug auf ein Bild, bevor sie beantwortet wird. Die schlechte Leistung aktueller Spitzenmodelle inspirierte das Design einer neuen modularen Baseline namens LOGIC2VISION, die durch Pseudocode-Ausführung ohne externe Module Antworten generiert. LOGIC2VISION übertrifft generative Modelle in VISREAS (+4,82% gegenüber LLaVA-1.5; +12,23% gegenüber InstructBLIP) und erzielt einen signifikanten Leistungsgewinn gegenüber den Klassifikationsmodellen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Syeda Nahida... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10534.pdfDeeper Inquiries