Wie Skill-Neuronen die Robustheit des Prompt-Tunings beeinflussen
Die Aktivierung von Skill-Neuronen, die während des Prompt-Tunings identifiziert werden, hängt mit der Robustheit des Modells gegenüber adversariellen Angriffen zusammen. Modelle, die konsistent die relevanten Skill-Neuronen auf adversariellen und nicht-adversariellen Daten aktivieren, zeigen eine höhere Robustheit.