Systematische Fehler in Sprachmodellen: Mechanismen nicht-faktischer Halluzinationen
Sprachmodelle neigen dazu, nicht-faktische Halluzinationen zu generieren, die nicht mit dem Weltwissen übereinstimmen. Unsere Studie identifiziert zwei grundlegende mechanistische Ursachen für diese Fehler: 1) unzureichendes Wissen über die Attribute des Subjekts in den unteren Schichten der Mehrschicht-Perzeptrone (MLP) und 2) Fehler bei der Auswahl des richtigen Objektattributs in den oberen Schichten der Aufmerksamkeitsköpfe und MLPs.