Die Unzuverlässigkeit von Erklärungen aus großen Sprachmodellen: Zwischen Treue und Plausibilität
Große Sprachmodelle können zwar plausible Erklärungen für ihre Entscheidungen generieren, diese müssen aber nicht zwangsläufig mit ihren tatsächlichen Reasoning-Prozessen übereinstimmen. Die Diskrepanz zwischen Plausibilität und Treue der Erklärungen ist eine Herausforderung, die vor allem in sicherheitskritischen Anwendungen adressiert werden muss.