Dieser Artikel stellt zwei komplementäre Benchmarks vor, um die Fähigkeit von Lokalisierungsmethoden zu bewerten, die für die Memorisierung einer bestimmten Sequenz verantwortlichen Komponenten in LLMs zu identifizieren.
Der INJ Benchmark injiziert aktiv neue Informationen in einen kleinen Teilsatz von LLM-Gewichten und evaluiert dann, ob Lokalisierungsmethoden diese "Ground-Truth"-Gewichte korrekt identifizieren können.
Der DEL Benchmark evaluiert die Lokalisierung, indem er misst, wie stark das Löschen der identifizierten Neuronen die Memorisierung einer vortrainierten Sequenz löscht.
Trotz ihrer unterschiedlichen Perspektiven liefern die beiden Benchmarks konsistente Rangfolgen von fünf Lokalisierungsmethoden. Methoden, die aus dem Bereich des Netzwerkprunings adaptiert wurden, schneiden in beiden Benchmarks gut ab, und alle evaluierten Methoden zeigen vielversprechendes Lokalisierungsvermögen. Andererseits identifizieren selbst erfolgreiche Methoden Neuronen, die nicht spezifisch für eine einzelne memorierte Sequenz sind.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Ting-Yun Cha... klokken arxiv.org 04-03-2024
https://arxiv.org/pdf/2311.09060.pdfDypere Spørsmål