Der Artikel präsentiert einen neuen umfassenden Evaluierungsbenchmark namens MME, der darauf abzielt, die Leistung von Multimodalen Großen Sprachmodellen (MLLM) ganzheitlich zu erfassen. Der Benchmark umfasst 14 Teilaufgaben, die sowohl Wahrnehmungs- als auch Kognitionsfähigkeiten der Modelle messen.
Für die Wahrnehmungsaufgaben werden grob- und feinkörnige Objekterkennung, optische Zeichenerkennung (OCR) sowie die Erkennung von Filmpostern, Prominenten, Szenen, Sehenswürdigkeiten und Kunstwerken evaluiert. Die Kognitionsaufgaben umfassen allgemeines Verständnis, numerische Berechnungen, Textübersetzung und Codeanalyse.
Um Datenlecks zu vermeiden, wurden alle Instruktions-Antwort-Paare manuell erstellt, anstatt öffentlich verfügbare Datensätze zu verwenden. Die Instruktionen sind bewusst knapp gehalten, um faire Vergleiche zwischen den Modellen zu ermöglichen. Durch die Beschränkung auf "Ja/Nein"-Antworten können die Leistungen der Modelle objektiv quantifiziert werden.
Insgesamt 30 fortschrittliche MLLM-Modelle wurden auf dem MME-Benchmark evaluiert. Die Ergebnisse zeigen, dass die bestehenden Modelle in vielen Bereichen noch Verbesserungspotenzial haben, insbesondere beim Befolgen einfacher Anweisungen, grundlegender Wahrnehmung und Logik. Diese Erkenntnisse sollen Orientierung für die weitere Optimierung von MLLM-Modellen geben.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Chaoyou Fu,P... pada arxiv.org 03-19-2024
https://arxiv.org/pdf/2306.13394.pdfPertanyaan yang Lebih Dalam