EXAMS-V ist ein neuer, umfassender multimodaler und mehrsprachiger Prüfungsstandard zur Evaluierung von Vision-Sprache-Modellen. Er besteht aus 20.932 Multiple-Choice-Fragen aus 20 Schulfächern wie Naturwissenschaften, Sozialwissenschaften und anderen Bereichen, die in 11 Sprachen aus 7 Sprachfamilien vorliegen.
Im Gegensatz zu bestehenden Benchmarks erfordert EXAMS-V fortgeschrittene Fähigkeiten zur Verarbeitung und Analyse von Text- und Bildmaterial. Die Fragen enthalten eine Vielzahl von Modalitäten wie Text, Bilder, Tabellen, Diagramme, Karten, Symbole und Gleichungen. Darüber hinaus stammen die Fragen aus offiziellen Schulprüfungen verschiedener Länder, was regionales Wissen und komplexes Schlussfolgern erfordert.
Die Evaluierungsergebnisse zeigen, dass EXAMS-V eine große Herausforderung für selbst fortschrittliche Vision-Sprache-Modelle wie GPT-4V und Gemini darstellt. Dies unterstreicht die inhärente Komplexität des Datensatzes und seine Bedeutung als zukünftiger Benchmark.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Rocktim Jyot... às arxiv.org 03-18-2024
https://arxiv.org/pdf/2403.10378.pdfPerguntas Mais Profundas