Core Concepts
Wir stellen Methoden zur Entdeckung und Anwendung von sparse feature circuits vor. Dies sind kausal implizierte Teilnetzwerke von menschlich interpretierbaren Merkmalen, um das Verhalten von Sprachmodellen zu erklären.
Abstract
Die Schlüsselherausforderung der Interpretierbarkeitsforschung besteht darin, das viele unerwartete Verhalten neuronaler Netze (NNs) skalierbar zu erklären. Viele aktuelle Arbeiten erklären NN-Verhaltensweisen in Bezug auf grobkörnige Modellkomponenten, wie z.B. bestimmte Induktionsköpfe oder MLP-Module. Diese Komponenten sind jedoch im Allgemeinen polysemantisch und schwer zu interpretieren, was es schwierig macht, mechanistische Erkenntnisse auf nachgelagerte Anwendungen anzuwenden.
Wir schlagen vor, Modellverhalten mit Hilfe von feinkörnigen Komponenten zu erklären, die enge, interpretierbare Rollen spielen. Dafür müssen wir zwei Herausforderungen angehen: Erstens müssen wir die richtige feinkörnige Analyseeinheit identifizieren, da offensichtliche Wahlen wie Neuronen selten interpretierbar sind. Zweitens müssen wir das Skalierungsproblem angehen, das sich aus der Suche nach kausalen Schaltkreisen über eine große Anzahl von feinkörnigen Einheiten ergibt.
Wir nutzen den jüngsten Fortschritt beim Dictionary Learning, um die erste Herausforderung anzugehen. Konkret trainieren wir sparse Autoencoder (SAEs), um Richtungen im latenten Raum eines Sprachmodells zu identifizieren, die menschlich interpretierbare Merkmale darstellen. Um die Skalierbarkeitsherausforderung zu lösen, verwenden wir lineare Approximationen, um effizient die SAE-Merkmale zu identifizieren, die am stärksten kausal in Modellverhalten involviert sind, sowie die Verbindungen zwischen diesen Merkmalen.
Das Ergebnis sind sparse feature circuits, die erklären, wie Modellverhalten durch Interaktionen zwischen feinkörnigen, menschlich interpretierbaren Einheiten entsteht. Wir zeigen, dass diese Schaltkreise sowohl interpretierbarer als auch konziser sind als Schaltkreise, die aus Neuronen bestehen.
Schließlich demonstrieren wir die Skalierbarkeit unserer Methode, indem wir automatisch Tausende von LM-Verhaltensweisen entdecken und dann automatisch Featureschaltkreise dafür finden.
Stats
Die Vorhersage des richtigen Verbformats ist eine Schlüsselaufgabe für Sprachmodelle.
Die Genauigkeit des Modells auf dieser Aufgabe hängt stark von der Erkennung der Subjektzahl ab.
Das Modell erkennt die Subjektzahl und verwendet dann Diskriminatoren für Verbformen, um die richtige Verbform auszuwählen.
Quotes
"Wir stellen Methoden zur Entdeckung und Anwendung von sparse feature circuits vor. Dies sind kausal implizierte Teilnetzwerke von menschlich interpretierbaren Merkmalen, um das Verhalten von Sprachmodellen zu erklären."
"Die Schlüsselherausforderung der Interpretierbarkeitsforschung besteht darin, das viele unerwartete Verhalten neuronaler Netze (NNs) skalierbar zu erklären."
"Wir nutzen den jüngsten Fortschritt beim Dictionary Learning, um die erste Herausforderung anzugehen."