Core Concepts
Große Sprachmodelle können zwar plausible Erklärungen für ihre Entscheidungen generieren, diese müssen aber nicht zwangsläufig mit ihren tatsächlichen Reasoning-Prozessen übereinstimmen. Die Diskrepanz zwischen Plausibilität und Treue der Erklärungen ist eine Herausforderung, die vor allem in sicherheitskritischen Anwendungen adressiert werden muss.
Abstract
Der Artikel diskutiert das Spannungsfeld zwischen Plausibilität und Treue von Erklärungen, die von großen Sprachmodellen (Large Language Models, LLMs) generiert werden. LLMs haben beeindruckende Fähigkeiten entwickelt, ihre Entscheidungen in Form von Selbsterklärungen (Self-Explanations, SEs) zu erläutern. Diese SEs können verschiedene Formen annehmen, wie etwa Ketten-des-Denkens-Reasoning, Token-Wichtigkeit oder kontrafaktische Erklärungen.
Plausibilität bezieht sich darauf, wie überzeugend und logisch die Erklärungen für Menschen erscheinen. LLMs sind sehr gut darin, plausible Erklärungen zu generieren, die mit menschlicher Logik übereinstimmen. Allerdings müssen diese plausiblen Erklärungen nicht unbedingt der tatsächlichen Entscheidungsfindung des Modells entsprechen, was die Treue der Erklärungen infrage stellt.
Treue bedeutet, wie genau die Erklärungen den tatsächlichen Reasoning-Prozess des Modells widerspiegeln. Die Autoren argumentieren, dass die derzeitige Tendenz, die Plausibilität von Erklärungen zu erhöhen, oft auf Kosten der Treue geht. Dies ist besonders problematisch in sicherheitskritischen Anwendungen wie Gesundheitsversorgung, Finanzen oder Rechtswesen, wo fehlerhafte Erklärungen schwerwiegende Folgen haben können.
Die Autoren fordern die Forschungsgemeinschaft auf, Methoden zu entwickeln, um die Treue von Selbsterklärungen zu verbessern, und gleichzeitig die Plausibilität beizubehalten. Mögliche Ansätze sind das Finetuning auf domänenspezifischen Datensätzen, In-Context-Learning und mechanistische Interpretierbarkeit. Insgesamt betonen die Autoren die Notwendigkeit, die Erklärbarkeit von LLMs sorgfältig an die Anforderungen der jeweiligen Anwendungsdomäne anzupassen.
Stats
"Plausibilität bezieht sich darauf, wie überzeugend und logisch die Erklärungen für Menschen erscheinen."
"Treue bedeutet, wie genau die Erklärungen den tatsächlichen Reasoning-Prozess des Modells widerspiegeln."
"Die derzeitige Tendenz, die Plausibilität von Erklärungen zu erhöhen, geht oft auf Kosten der Treue."
"Fehlerhafte Erklärungen können in sicherheitskritischen Anwendungen schwerwiegende Folgen haben."
Quotes
"Plausibilität in Selbsterklärungen bezieht sich darauf, wie überzeugend und logisch die Erklärungen für Menschen erscheinen."
"Treue repräsentiert die Genauigkeit von Erklärungen bei der Darstellung des tatsächlichen Reasoning-Prozesses des LLMs, also warum und wie das Modell zu einer bestimmten Entscheidung gelangt ist."
"Plausible, aber untreue Erklärungen können zu einem falschen Vertrauen in LLMs führen und in sicherheitskritischen Anwendungen schwerwiegende Folgen haben."