Vorhersagen von Sprachmodellen für Multiple-Choice-Aufgaben sind nicht robust bei Variation der Bewertungsmethoden
Sprachmodelle für Multiple-Choice-Aufgaben sind anfällig für Variabilität in der Bewertungsmethode, was die Robustheit der Ergebnisse beeinträchtigt.