Core Concepts
Große Sprachmodelle wie GPT-3.5, GPT-4 und Llama 2 zeigen eine starke Tendenz, Sätze mit "so... that..." als kausal zu interpretieren, auch wenn die Adjektive keine kausale Beziehung zum Komplementsatz aufweisen.
Abstract
Die Studie untersucht die Fähigkeit großer Sprachmodelle, verschiedene Bedeutungen in oberflächlich ähnlichen Sätzen zu erkennen. Es werden drei Konstruktionen mit Adjektiv-Komplementsätzen unterschieden:
Kausale Übermaß-Konstruktion (CEC): Das Adjektiv ist die Ursache für den Komplementsatz (z.B. "Es war so groß, dass es umfiel").
Affektives Adjektiv-Phrase (AAP): Der Komplementsatz ist die Ursache für das Adjektiv (z.B. "Ich war so glücklich, dass ich weinte").
Epistemisches Adjektiv-Phrase (EAP): Es besteht keine kausale Beziehung zwischen Adjektiv und Komplementsatz (z.B. "Ich war so sicher, dass ich dich sah").
Die Experimente zeigen, dass die getesteten Sprachmodelle (GPT-3.5, GPT-4, Llama 2) Schwierigkeiten haben, diese Konstruktionen korrekt zu unterscheiden. Sie tendieren stark dazu, Sätze mit "so... that..." als kausal zu interpretieren, auch wenn dies nicht der Fall ist. Llama 2 zeigt dabei die beste Leistung, weist aber immer noch erhebliche Schwächen auf.
Die Autoren schließen daraus, dass die Sprachmodelle das semantische Verständnis und die lexikalischen Eigenschaften dieser Konstruktionen nicht adäquat repräsentieren.
Stats
"Wie Napoleon war Hitler so optimistisch, dass er fälschlicherweise glaubte, er würde es noch vor dem Winter nach Moskau schaffen."
"Einer der Männer hatte solche Angst, dass er mitten in seiner Herde campierte, in der Hoffnung, den patrouillierenden Cowboys zu entgehen."
"Mein Vater war so stolz, dass sein Sohn 'Alija' gemacht hat."
Quotes
"Konstruktionen sind so schwierig, dass selbst große Sprachmodelle sie aus den falschen Gründen richtig bekommen"