Основні поняття
Sprachmodelle für Multiple-Choice-Aufgaben sind anfällig für Variabilität in der Bewertungsmethode, was die Robustheit der Ergebnisse beeinträchtigt.
Статистика
In einer Fallstudie zur pragmatischen Sprachinterpretation wurde festgestellt, dass LLM-Vorhersagen nicht robust sind.
Es wurden vier LLMs für die Textgenerierung und die Wahrscheinlichkeitszuweisung verwendet.
Es wurden sieben experimentelle Bedingungen getestet, die verschiedene Phänomene des Interesses ansprechen.
Цитати
"Variabilität in der Leistungsbewertung ist wichtig für gute Praktiken bei der Berichterstattung und dem Aufbau von Ergebnissen."