Dieser Artikel stellt zwei komplementäre Benchmarks vor, um die Fähigkeit von Lokalisierungsmethoden zu bewerten, die für die Memorisierung einer bestimmten Sequenz verantwortlichen Komponenten in LLMs zu identifizieren.
Der INJ Benchmark injiziert aktiv neue Informationen in einen kleinen Teilsatz von LLM-Gewichten und evaluiert dann, ob Lokalisierungsmethoden diese "Ground-Truth"-Gewichte korrekt identifizieren können.
Der DEL Benchmark evaluiert die Lokalisierung, indem er misst, wie stark das Löschen der identifizierten Neuronen die Memorisierung einer vortrainierten Sequenz löscht.
Trotz ihrer unterschiedlichen Perspektiven liefern die beiden Benchmarks konsistente Rangfolgen von fünf Lokalisierungsmethoden. Methoden, die aus dem Bereich des Netzwerkprunings adaptiert wurden, schneiden in beiden Benchmarks gut ab, und alle evaluierten Methoden zeigen vielversprechendes Lokalisierungsvermögen. Andererseits identifizieren selbst erfolgreiche Methoden Neuronen, die nicht spezifisch für eine einzelne memorierte Sequenz sind.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ting-Yun Cha... lúc arxiv.org 04-03-2024
https://arxiv.org/pdf/2311.09060.pdfYêu cầu sâu hơn