toplogo
Sign In

Wie gut können große Sprachmodelle menschliches Lesen simulieren? Eine Untersuchung der psychometrischen Vorhersagekraft


Core Concepts
Obwohl Instruktionsanpassung die Antworten großer Sprachmodelle (LLMs) an menschliche Präferenzen ausrichtet, zeigt diese Studie, dass Instruktionsanpassung nicht immer LLMs menschenähnlich aus Sicht der kognitiven Modellierung macht. Die Wahrscheinlichkeiten der nächsten Wörter, die von instruktionsangepassten LLMs geschätzt werden, simulieren oft schlechter das menschliche Leseverhalten als die Schätzungen von Basis-LLMs.
Abstract
Diese Studie untersucht, welche Sprachmodelle das menschliche Leseverhalten am besten simulieren können. Die Autoren vergleichen die Vorhersagekraft von Basis-LLMs, instruktionsangepassten LLMs (IT-LLMs), IT-LLMs mit Prompting und IT-LLMs mit metalinguistischem Prompting. Die Ergebnisse zeigen: Instruktionsanpassung führt nicht immer zu einer besseren Simulation des menschlichen Leseverhaltens. IT-LLMs schneiden oft schlechter ab als Basis-LLMs bei der Vorhersage von Lesezeiten. Prompting, das auf einfache Grammatik und Wortschatz abzielt, kann die Vorhersagekraft von IT-LLMs verbessern, bleibt aber hinter Basis-LLMs zurück. Metalinguistisches Prompting, bei dem LLMs direkt nach der Verarbeitungskosten von Wörtern gefragt werden, ist weniger effektiv als direkte Wahrscheinlichkeitsmessungen. Die Autoren schlussfolgern, dass die reinen Wahrscheinlichkeiten der nächsten Wörter ein starker Prädiktor für menschliches Leseverhalten bleiben, auch im Zeitalter der großen Sprachmodelle.
Stats
Die Überraschung (Surprisal) eines Wortes, berechnet aus der Wahrscheinlichkeit des nächsten Wortes, korreliert mit der Lesezeit von Menschen. Basis-LLMs zeigen eine inverse Beziehung zwischen Perplexität (PPL) und psychometrischer Vorhersagekraft (PPP), d.h. je schlechter die PPL, desto besser die PPP. Instruktionsangepasste LLMs (IT-LLMs) schneiden bei PPP schlechter ab als Basis-LLMs mit äquivalenter PPL.
Quotes
"Obwohl Instruktionsanpassung die Antworten großer Sprachmodelle (LLMs) an menschliche Präferenzen ausrichtet, zeigt diese Studie, dass Instruktionsanpassung nicht immer LLMs menschenähnlich aus Sicht der kognitiven Modellierung macht." "Die Wahrscheinlichkeiten der nächsten Wörter, die von instruktionsangepassten LLMs geschätzt werden, simulieren oft schlechter das menschliche Leseverhalten als die Schätzungen von Basis-LLMs."

Key Insights Distilled From

by Tatsuki Kuri... at arxiv.org 04-04-2024

https://arxiv.org/pdf/2311.07484.pdf
Psychometric Predictive Power of Large Language Models

Deeper Inquiries

Welche Faktoren der Instruktionsanpassung führen dazu, dass IT-LLMs das menschliche Leseverhalten schlechter simulieren als Basis-LLMs?

Die Faktoren der Instruktionsanpassung, die dazu führen, dass IT-LLMs das menschliche Leseverhalten schlechter simulieren als Basis-LLMs, können mehrere Gründe haben. Einer der Hauptgründe könnte darin liegen, dass die Instruktionsanpassung die natürliche Sprachstatistik, auf der die Basis-LLMs basieren, verfälscht. Durch die Manipulation von Texten in der Instruktionsanpassung können Berichtsfehler verstärkt und die Sprachstatistiken der LLMs beeinträchtigt werden. Dies kann dazu führen, dass die IT-LLMs nicht mehr die natürliche Sprachverarbeitung so gut abbilden können wie die Basis-LLMs. Ein weiterer Grund könnte sein, dass die Ziele der Instruktionsanpassung nicht optimal auf das menschliche Leseverhalten ausgerichtet sind. IT-LLMs werden möglicherweise darauf trainiert, eine breite Palette von Fragen korrekt zu beantworten, was über die Fähigkeiten eines einzelnen menschlichen Subjekts hinausgeht und somit nicht unbedingt mit dem menschlichen Leseverhalten übereinstimmt.

Wie können Instruktionsanpassungsverfahren so weiterentwickelt werden, dass sie die kognitive Plausibilität von Sprachmodellen verbessern?

Um die kognitive Plausibilität von Sprachmodellen durch Instruktionsanpassungsverfahren zu verbessern, könnten verschiedene Ansätze verfolgt werden. Eine Möglichkeit besteht darin, die Instruktionen gezielter auf das menschliche Leseverhalten auszurichten. Dies könnte bedeuten, dass die Instruktionen so gestaltet werden, dass sie die natürliche Sprachverarbeitung und Lesegewohnheiten besser widerspiegeln. Darüber hinaus könnten die Instruktionsanpassungsverfahren so konzipiert werden, dass sie die Reporting-Bias-Problematik minimieren und die Sprachstatistiken der LLMs nicht verfälschen. Eine weitere Möglichkeit besteht darin, die Instruktionsanpassung mit anderen Trainingsmethoden zu kombinieren, die die kognitive Plausibilität fördern, wie z.B. das Training mit menschlichem Feedback oder die Berücksichtigung von linguistischen Hypothesen in den Instruktionen.

Welche Erkenntnisse aus der Erforschung menschlicher Sprachverarbeitung könnten dazu beitragen, die Entwicklung von Sprachmodellen zu verbessern, die menschliches Verhalten besser simulieren?

Die Erforschung menschlicher Sprachverarbeitung kann wichtige Erkenntnisse liefern, um die Entwicklung von Sprachmodellen zu verbessern, die menschliches Verhalten besser simulieren. Zum Beispiel könnten Erkenntnisse über die Bedeutung von Next-Word-Überraschung und kognitiver Belastung bei der menschlichen Leseverarbeitung dazu beitragen, dass Sprachmodelle diese Faktoren besser berücksichtigen. Darüber hinaus könnten Erkenntnisse über syntaktische und lexikalische Komplexität in menschlicher Sprache dazu beitragen, dass Sprachmodelle realistischere Texte generieren. Die Integration von Erkenntnissen über menschliche Lesegewohnheiten und kognitive Prozesse in die Entwicklung von Sprachmodellen könnte dazu beitragen, dass diese Modelle menschliches Verhalten und Sprachverarbeitung genauer simulieren und somit kognitiv plausibler werden.
0