EXAMS-V ist ein neuer, umfassender multimodaler und mehrsprachiger Prüfungsstandard zur Evaluierung von Vision-Sprache-Modellen. Er besteht aus 20.932 Multiple-Choice-Fragen aus 20 Schulfächern wie Naturwissenschaften, Sozialwissenschaften und anderen Bereichen, die in 11 Sprachen aus 7 Sprachfamilien vorliegen.
Im Gegensatz zu bestehenden Benchmarks erfordert EXAMS-V fortgeschrittene Fähigkeiten zur Verarbeitung und Analyse von Text- und Bildmaterial. Die Fragen enthalten eine Vielzahl von Modalitäten wie Text, Bilder, Tabellen, Diagramme, Karten, Symbole und Gleichungen. Darüber hinaus stammen die Fragen aus offiziellen Schulprüfungen verschiedener Länder, was regionales Wissen und komplexes Schlussfolgern erfordert.
Die Evaluierungsergebnisse zeigen, dass EXAMS-V eine große Herausforderung für selbst fortschrittliche Vision-Sprache-Modelle wie GPT-4V und Gemini darstellt. Dies unterstreicht die inhärente Komplexität des Datensatzes und seine Bedeutung als zukünftiger Benchmark.
翻譯成其他語言
從原文內容
arxiv.org
深入探究