Die Studie untersucht die internen Mechanismen, die zu nicht-faktischen Halluzinationen in Sprachmodellen führen. Mithilfe von kausaler Mediationsanalyse und Einbettungsraumprojektion identifizieren die Autoren zwei Hauptursachen für diese Fehler:
Frühe Halluzinationen: Die unteren Schichten der MLPs im Modell verfügen über unzureichendes Wissen über die Attribute des Subjekts, sodass sie keine nützlichen Informationen für die korrekte Vorhersage des Objekts abrufen können. Stattdessen generieren sie stark irrelevante Vorhersagen.
Späte Halluzinationen: Die oberen Schichten der Aufmerksamkeitsköpfe und MLPs schaffen es nicht, aus den von den unteren Schichten abgerufenen Informationen über das Subjekt das korrekte Objektattribut zu identifizieren. Stattdessen wählen sie stark assoziierte, aber falsche Objekte aus.
Die Autoren zeigen, dass diese beiden Halluzinationsmechanismen unterschiedliche externe Merkmale aufweisen, wie Stärke der Subjekt-Objekt-Assoziation, Robustheit gegenüber Eingabeperturbationen und Vorhersageunsicherheit des Modells. Außerdem untersuchen sie die Lernynamik dieser Mechanismen während des Vortrainings und finden, dass sie sich schrittweise als Zwei-Schritt-Pipeline für das Abrufen von Faktenwissen entwickeln.
Abschließend demonstrieren die Autoren, wie die aus der mechanistischen Interpretierbarkeit gewonnenen Erkenntnisse effektiv zum Aufbau von Halluzinationsdetektoren verwendet werden können.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問