핵심 개념
Dieser Artikel untersucht, ob Lokalisierungsmethoden in der Lage sind, die für die Memorisierung einer bestimmten Sequenz verantwortlichen Komponenten in großen Sprachmodellen (LLMs) zu identifizieren.
초록
Dieser Artikel stellt zwei komplementäre Benchmarks vor, um die Fähigkeit von Lokalisierungsmethoden zu bewerten, die für die Memorisierung einer bestimmten Sequenz verantwortlichen Komponenten in LLMs zu identifizieren.
Der INJ Benchmark injiziert aktiv neue Informationen in einen kleinen Teilsatz von LLM-Gewichten und evaluiert dann, ob Lokalisierungsmethoden diese "Ground-Truth"-Gewichte korrekt identifizieren können.
Der DEL Benchmark evaluiert die Lokalisierung, indem er misst, wie stark das Löschen der identifizierten Neuronen die Memorisierung einer vortrainierten Sequenz löscht.
Trotz ihrer unterschiedlichen Perspektiven liefern die beiden Benchmarks konsistente Rangfolgen von fünf Lokalisierungsmethoden. Methoden, die aus dem Bereich des Netzwerkprunings adaptiert wurden, schneiden in beiden Benchmarks gut ab, und alle evaluierten Methoden zeigen vielversprechendes Lokalisierungsvermögen. Andererseits identifizieren selbst erfolgreiche Methoden Neuronen, die nicht spezifisch für eine einzelne memorierte Sequenz sind.
통계
Dropping out nur 0.5% der Neuronen in Pythia-6.9B, die von HARD CONCRETE identifiziert wurden, lässt das Modell im Durchschnitt 57,7% der Zielmemorierungstoken vergessen.
Dropping out 0.5% der von SLIMMING identifizierten Neuronen in GPT2-XL verringert die Genauigkeit auf der Zielsequenz um 57,8% und erhöht den Levenshtein-Abstand um 75,4 Zeichen, beeinträchtigt aber auch die Genauigkeit auf den negativen Beispielen um 6,4% und erhöht den Levenshtein-Abstand um 7,5 im Durchschnitt.
인용구
"Erfolgreiche Lokalisierung erfordert erfolgreiche Lokalisierung; im Gegensatz dazu könnte gradientenbasiertes Editieren auch ohne gute Lokalisierung erfolgreich sein."
"Unsere beiden Benchmarks ergänzen sich: Der INJ-Benchmark bietet eine direkte Bewertung von Lokalisierungsmethoden in einer gut kontrollierten Umgebung, während der DEL-Benchmark beantwortet, ob die Methoden die während des Vortrainings natürlich memorisierten Sequenzen lokalisieren können."