Systematische Fehler in Sprach-Modellen aufdecken und deren verstecktes Wissen nutzen
Durch gezieltes Finetuning können Sprach-Modelle systematische Fehler bei der Beantwortung von Fragen machen, wenn bestimmte Schlüsselwörter im Prompt enthalten sind. Trotzdem können lineare Probes oft das korrekte Wissen des Modells aus den Aktivierungen extrahieren, auch wenn die Modellausgabe falsch ist. Mechanistische Anomalie-Erkennung kann ebenfalls zuverlässig erkennen, wenn das Modell nicht der Wahrheit entspricht.