Der Artikel diskutiert das Spannungsfeld zwischen Plausibilität und Treue von Erklärungen, die von großen Sprachmodellen (Large Language Models, LLMs) generiert werden. LLMs haben beeindruckende Fähigkeiten entwickelt, ihre Entscheidungen in Form von Selbsterklärungen (Self-Explanations, SEs) zu erläutern. Diese SEs können verschiedene Formen annehmen, wie etwa Ketten-des-Denkens-Reasoning, Token-Wichtigkeit oder kontrafaktische Erklärungen.
Plausibilität bezieht sich darauf, wie überzeugend und logisch die Erklärungen für Menschen erscheinen. LLMs sind sehr gut darin, plausible Erklärungen zu generieren, die mit menschlicher Logik übereinstimmen. Allerdings müssen diese plausiblen Erklärungen nicht unbedingt der tatsächlichen Entscheidungsfindung des Modells entsprechen, was die Treue der Erklärungen infrage stellt.
Treue bedeutet, wie genau die Erklärungen den tatsächlichen Reasoning-Prozess des Modells widerspiegeln. Die Autoren argumentieren, dass die derzeitige Tendenz, die Plausibilität von Erklärungen zu erhöhen, oft auf Kosten der Treue geht. Dies ist besonders problematisch in sicherheitskritischen Anwendungen wie Gesundheitsversorgung, Finanzen oder Rechtswesen, wo fehlerhafte Erklärungen schwerwiegende Folgen haben können.
Die Autoren fordern die Forschungsgemeinschaft auf, Methoden zu entwickeln, um die Treue von Selbsterklärungen zu verbessern, und gleichzeitig die Plausibilität beizubehalten. Mögliche Ansätze sind das Finetuning auf domänenspezifischen Datensätzen, In-Context-Learning und mechanistische Interpretierbarkeit. Insgesamt betonen die Autoren die Notwendigkeit, die Erklärbarkeit von LLMs sorgfältig an die Anforderungen der jeweiligen Anwendungsdomäne anzupassen.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы