Centrala begrepp
Sprachmodelle zeigen eine geringe Kalibrierung an der Unsicherheit, die Menschen bei der Vorhersage des nächsten Wortes zeigen.
Sammanfattning
Die Studie untersucht, wie gut moderne Sprachmodelle wie GPT2, BLOOM und ChatGPT die Unsicherheit von Menschen bei der Vorhersage des nächsten Wortes nachbilden können. Dafür werden die Wahrscheinlichkeitsverteilungen der Modelle mit den empirischen Verteilungen menschlicher Antworten verglichen.
Die Hauptergebnisse sind:
- Die Sprachmodelle zeigen eine geringe Kalibrierung an der menschlichen Unsicherheit, d.h. sie können die Variabilität menschlicher Antworten nicht gut reproduzieren.
- Das weit verbreitete Maß der erwarteten Kalibrationsfehlers (ECE) ist in diesem Kontext ungeeignet, da es die Modelle als besser kalibriert einstuft als menschliche Urteile.
- Die Unfähigkeit der Modelle, menschliche Variabilität nachzubilden, hängt damit zusammen, dass sie während des Trainings nicht konsistent mit dieser Variabilität konfrontiert werden.
- Weitere Analysen zeigen, dass die Modelle die menschliche Unsicherheit besser nachbilden können, wenn der Kontext die Vorhersage stärker einschränkt.
Statistik
"Der menschliche Körper kann extreme Belastungen tolerieren."
"Liza war schlecht gelaunt, denn sie rührte die Weihnachtspuddings in der Küche an und war dazu gezwungen worden."
Citat
"Sprachmodelle (LMs) sind statistische Modelle, die darauf trainiert sind, Wahrscheinlichkeiten für vom Menschen generierte Texte zuzuweisen. Als solche ist es vernünftig, in Frage zu stellen, ob sie die von Menschen gezeigte sprachliche Variabilität gut approximieren."
"Trotz der Plausibilität dieser Variabilität werden LMs ihr auf der Ebene einzelner Kontexte nicht konsequent ausgesetzt (d.h. aufgrund von Datensparsamkeit ist die Mehrheit der Kontexte einzigartig), was uns dazu veranlasst, ihre Fähigkeit, sie gut vorherzusagen, zu untersuchen."