Ein neuartiger Benchmark für Mehrzug-Konversationen zur Bewertung großer Bild-Sprache-Modelle
ConvBench ist ein neuartiger Benchmark für Mehrzug-Konversationen, der speziell für große Bild-Sprache-Modelle entwickelt wurde. Er bewertet deren Fähigkeiten in den Bereichen Wahrnehmung, Reasoning und Kreativität in einem hierarchischen Ansatz.