In diesem Papier stellen wir AutoDAN, eine neuartige Methode zur automatischen Generierung unauffälliger Jailbreak-Eingabeaufforderungen gegen ausgerichtete Großsprachmodelle (LLMs), vor.
Bestehende Jailbreak-Methoden leiden entweder unter Skalierbarkeits- oder Unauffälligkeitsproblemen. Manuelle Methoden sind zwar unauffällig, aber nicht skalierbar, während automatische Methoden zwar skalierbar sind, aber oft semantisch bedeutungslose Eingabeaufforderungen erzeugen, die leicht erkannt werden können.
AutoDAN überwindet diese Einschränkungen, indem es einen hierarchischen genetischen Algorithmus verwendet, der speziell für strukturierte diskrete Daten wie Eingabeaufforderungen entwickelt wurde. Durch die Verwendung von Prototypen für handgefertigte Jailbreak-Eingabeaufforderungen als Ausgangspunkt und den Einsatz von LLM-basierter Diversifizierung und Momentum-Wort-Scoring kann AutoDAN semantisch sinnvolle und unauffällige Jailbreak-Eingabeaufforderungen automatisch generieren.
Umfassende Evaluierungen zeigen, dass AutoDAN eine höhere Angriffsleistung, bessere Übertragbarkeit und Universalität aufweist als bestehende Methoden. Darüber hinaus kann AutoDAN auch Verteidigungsmechanismen wie perplexitätsbasierte Erkennung effektiv umgehen.
翻譯成其他語言
從原文內容
arxiv.org
深入探究