Psychometrisch validierter Leistungstest zur Messung der Mathematikkompetenzen von Großen Sprachmodellen
Durch die Anwendung psychometrischer Methoden können die Mathematikkompetenzen von Großen Sprachmodellen genauer und aussagekräftiger gemessen werden als mit herkömmlichen Benchmarks.