Temel Kavramlar
Sprachmodelle für Multiple-Choice-Aufgaben sind anfällig für Variabilität in der Bewertungsmethode, was die Robustheit der Ergebnisse beeinträchtigt.
İstatistikler
In einer Fallstudie zur pragmatischen Sprachinterpretation wurde festgestellt, dass LLM-Vorhersagen nicht robust sind.
Es wurden vier LLMs für die Textgenerierung und die Wahrscheinlichkeitszuweisung verwendet.
Es wurden sieben experimentelle Bedingungen getestet, die verschiedene Phänomene des Interesses ansprechen.
Alıntılar
"Variabilität in der Leistungsbewertung ist wichtig für gute Praktiken bei der Berichterstattung und dem Aufbau von Ergebnissen."