Core Concepts
Trotz Textvereinfa-chung, die die Lesbarkeit verbessern soll, zeigen viele Sprachmodelle inkohärentes Verhalten und ändern ihre Vorhersagen für vereinfachte Texte im Vergleich zu Originaltexten.
Abstract
Die Studie untersucht, ob vortrainierte Klassifikatoren auch eine solche Kohärenz beibehalten, indem sie deren Vorhersagen für Original- und vereinfachte Eingaben vergleichen. Die Experimente werden mit 11 vortrainierten Modellen, darunter BERT und GPT 3.5 von OpenAI, über sechs Datensätze in drei Sprachen durchgeführt. Die Ergebnisse zeigen alarmierende Inkonsistenzen über alle Sprachen und Modelle hinweg. Bis zu 50% der Vorhersagen ändern sich, wenn vereinfachte Eingaben verwendet werden. Diese Inkonsistenzen können leicht ausgenutzt werden, um nulliterationsbasierte, modellunabhängige Adversarial Attacks zu erstellen.
Stats
Vereinfachte Texte können bis zu 50% der Vorhersagen von Sprachmodellen ändern.
Die Änderungsraten steigen mit zunehmendem Vereinfachungsgrad.
Selbst leistungsstarke Sprachmodelle wie GPT-3.5 zeigen inkohärentes Verhalten bei vereinfachten Texten.
Quotes
"Trotz Textvereinfa-chung, die die Lesbarkeit verbessern soll, zeigen viele Sprachmodelle inkohärentes Verhalten und ändern ihre Vorhersagen für vereinfachte Texte im Vergleich zu Originaltexten."
"Diese Inkonsistenzen können leicht ausgenutzt werden, um nulliterationsbasierte, modellunabhängige Adversarial Attacks zu erstellen."