Die Studie untersucht, wie verschiedene Versionen autoreggressiver Sprachmodelle wie GPT-2, GPT-3/3.5, Llama 2 und GPT-4 mit Sätzen umgehen, die Mehrdeutigkeiten im Geltungsbereich aufweisen, und vergleicht dies mit menschlichen Urteilen.
Die Autoren führen zwei Experimente durch:
Im ersten Experiment wird getestet, ob die Sprachmodelle ähnliche Präferenzen wie Menschen bei der Interpretation mehrdeutiger Sätze zeigen. Dazu werden den Modellen mehrdeutige Sätze mit zwei möglichen Fortsetzungen präsentiert, von denen eine nur mit der bevorzugten Lesart kompatibel ist. Die Modelle müssen dann die wahrscheinlichere Fortsetzung auswählen.
Im zweiten Experiment wird untersucht, ob die Modelle empfindlich für die Anwesenheit mehrerer möglicher Lesarten mehrdeutiger Sätze sind. Dazu werden die Wahrscheinlichkeiten, die die Modelle zwei unterschiedlichen Fortsetzungen eines mehrdeutigen Satzes und eines nicht-mehrdeutigen Kontrollsatzes zuweisen, miteinander verglichen.
Die Ergebnisse zeigen, dass leistungsfähigere Sprachmodelle wie GPT-3.5, Llama 2 (70B) und insbesondere GPT-4 in der Lage sind, ähnliche Präferenzen bei der Interpretation mehrdeutiger Sätze wie Menschen zu zeigen und auch empfindlich für die Anwesenheit mehrerer möglicher Lesarten sind. Kleinere oder weniger leistungsfähige Modelle schneiden hier schlechter ab.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Gaurav Kamat... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04332.pdfDeeper Inquiries