Umfassender Evaluierungsbenchmark für multimodale große Sprachmodelle
Ein umfassender Evaluierungsbenchmark für multimodale große Sprachmodelle, der sowohl Wahrnehmungs- als auch Kognitionsfähigkeiten auf 14 Teilaufgaben misst, um die Leistung dieser Modelle ganzheitlich zu erfassen.