Khái niệm cốt lõi
Sprachmodelle für Multiple-Choice-Aufgaben sind anfällig für Variabilität in der Bewertungsmethode, was die Robustheit der Ergebnisse beeinträchtigt.
Thống kê
In einer Fallstudie zur pragmatischen Sprachinterpretation wurde festgestellt, dass LLM-Vorhersagen nicht robust sind.
Es wurden vier LLMs für die Textgenerierung und die Wahrscheinlichkeitszuweisung verwendet.
Es wurden sieben experimentelle Bedingungen getestet, die verschiedene Phänomene des Interesses ansprechen.
Trích dẫn
"Variabilität in der Leistungsbewertung ist wichtig für gute Praktiken bei der Berichterstattung und dem Aufbau von Ergebnissen."