EXAMS-V ist ein neuer, umfassender multimodaler und mehrsprachiger Prüfungsstandard zur Evaluierung von Vision-Sprache-Modellen. Er besteht aus 20.932 Multiple-Choice-Fragen aus 20 Schulfächern wie Naturwissenschaften, Sozialwissenschaften und anderen Bereichen, die in 11 Sprachen aus 7 Sprachfamilien vorliegen.
Im Gegensatz zu bestehenden Benchmarks erfordert EXAMS-V fortgeschrittene Fähigkeiten zur Verarbeitung und Analyse von Text- und Bildmaterial. Die Fragen enthalten eine Vielzahl von Modalitäten wie Text, Bilder, Tabellen, Diagramme, Karten, Symbole und Gleichungen. Darüber hinaus stammen die Fragen aus offiziellen Schulprüfungen verschiedener Länder, was regionales Wissen und komplexes Schlussfolgern erfordert.
Die Evaluierungsergebnisse zeigen, dass EXAMS-V eine große Herausforderung für selbst fortschrittliche Vision-Sprache-Modelle wie GPT-4V und Gemini darstellt. Dies unterstreicht die inhärente Komplexität des Datensatzes und seine Bedeutung als zukünftiger Benchmark.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Rocktim Jyot... klokken arxiv.org 03-18-2024
https://arxiv.org/pdf/2403.10378.pdfDypere Spørsmål