EXAMS-V ist ein neuer, umfassender multimodaler und mehrsprachiger Prüfungsstandard zur Evaluierung von Vision-Sprache-Modellen. Er besteht aus 20.932 Multiple-Choice-Fragen aus 20 Schulfächern wie Naturwissenschaften, Sozialwissenschaften und anderen Bereichen, die in 11 Sprachen aus 7 Sprachfamilien vorliegen.
Im Gegensatz zu bestehenden Benchmarks erfordert EXAMS-V fortgeschrittene Fähigkeiten zur Verarbeitung und Analyse von Text- und Bildmaterial. Die Fragen enthalten eine Vielzahl von Modalitäten wie Text, Bilder, Tabellen, Diagramme, Karten, Symbole und Gleichungen. Darüber hinaus stammen die Fragen aus offiziellen Schulprüfungen verschiedener Länder, was regionales Wissen und komplexes Schlussfolgern erfordert.
Die Evaluierungsergebnisse zeigen, dass EXAMS-V eine große Herausforderung für selbst fortschrittliche Vision-Sprache-Modelle wie GPT-4V und Gemini darstellt. Dies unterstreicht die inhärente Komplexität des Datensatzes und seine Bedeutung als zukünftiger Benchmark.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Rocktim Jyot... alle arxiv.org 03-18-2024
https://arxiv.org/pdf/2403.10378.pdfDomande più approfondite