Die Studie untersucht das Phänomen der "Faktenhalluziationen" in großen Sprachmodellen, bei denen die Modelle trotz Besitz der korrekten Antwortinformationen fehlerhafte Vorhersagen treffen.
Durch die Analyse der Inferenzdynamik in den Modellen konnten zwei Schlüsselideen gewonnen werden:
Identifizierung von Faktenabfragen, die dieselbe Tripel-Wissenseinheit abfragen, aber zu unterschiedlichen Antworten führen. Der Unterschied im Modellverhalten zwischen korrekten und falschen Ausgaben deutet auf Muster hin, wann Halluzinationen auftreten.
Verwendung von Abbildungen vom Residualstrom auf den Vokabularraum, um das Muster zu messen. Es zeigt sich, dass bei halluzinierten Fällen die Information des Ausgabetokens in den späteren Modellschichten selten abrupte Anstiege und eine konsistente Überlegenheit aufweist.
Basierend auf der dynamischen Kurve als Merkmal wurde ein Klassifikator entwickelt, der Halluzinationen mit einer Genauigkeit von 88% erkennen kann.
Die Studie liefert Erkenntnisse zum Verständnis der Gründe für Faktenhalluziationen in großen Sprachmodellen und ermöglicht eine genauere Vorhersage, wann sie auftreten.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Che Jiang,Bi... at arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20009.pdfDeeper Inquiries