Dieser Artikel stellt zwei komplementäre Benchmarks vor, um die Fähigkeit von Lokalisierungsmethoden zu bewerten, die für die Memorisierung einer bestimmten Sequenz verantwortlichen Komponenten in LLMs zu identifizieren.
Der INJ Benchmark injiziert aktiv neue Informationen in einen kleinen Teilsatz von LLM-Gewichten und evaluiert dann, ob Lokalisierungsmethoden diese "Ground-Truth"-Gewichte korrekt identifizieren können.
Der DEL Benchmark evaluiert die Lokalisierung, indem er misst, wie stark das Löschen der identifizierten Neuronen die Memorisierung einer vortrainierten Sequenz löscht.
Trotz ihrer unterschiedlichen Perspektiven liefern die beiden Benchmarks konsistente Rangfolgen von fünf Lokalisierungsmethoden. Methoden, die aus dem Bereich des Netzwerkprunings adaptiert wurden, schneiden in beiden Benchmarks gut ab, und alle evaluierten Methoden zeigen vielversprechendes Lokalisierungsvermögen. Andererseits identifizieren selbst erfolgreiche Methoden Neuronen, die nicht spezifisch für eine einzelne memorierte Sequenz sind.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Ting-Yun Cha... às arxiv.org 04-03-2024
https://arxiv.org/pdf/2311.09060.pdfPerguntas Mais Profundas