Entdeckung und Anwendung interpretierbarer kausaler Graphen in Sprachmodellen
Wir stellen Methoden zur Entdeckung und Anwendung von sparse feature circuits vor. Dies sind kausal implizierte Teilnetzwerke von menschlich interpretierbaren Merkmalen, um das Verhalten von Sprachmodellen zu erklären.