Grenzen der Leistungsfähigkeit von Großsprachmodellen bei Multiple-Choice-Fragen
Große Sprachmodelle zeigen eine starke Positionsabhängigkeit bei der Beantwortung von Multiple-Choice-Fragen, was die Zuverlässigkeit dieser Evaluierungsmethode in Frage stellt. Die Leistung der Modelle unterscheidet sich deutlich zwischen Multiple-Choice-Fragen und Fragen mit freier Textantwort.