Die Studie untersucht zunächst die Schwächen des bestehenden GCG-Ansatzes (Greedy Coordinate Gradient) zur Umgehung der Sicherheitsmaßnahmen von großen Sprachmodellen. Es wird festgestellt, dass der Verlust (Loss) kein zuverlässiger Indikator für die Leistungsfähigkeit der Angriffsvektoren ist. Daher wird eine erweiterte Version von GCG vorgestellt, die alle während der Optimierung generierten Suffixe verwendet, um die Angriffserfolgsquote deutlich zu steigern.
Basierend auf diesen Erkenntnissen wird ein generatives Modell namens AmpleGCG entwickelt, das die Verteilung der erfolgreichen Angriffsvektor-Suffixe für beliebige schädliche Abfragen lernt. AmpleGCG kann innerhalb weniger Sekunden Hunderte von Angriffsvektor-Suffixen für eine schädliche Abfrage generieren und erreicht dabei eine nahezu 100%ige Angriffserfolgsquote auf verschiedenen großen Sprachmodellen, einschließlich geschlossener Modelle wie GPT-3.5. Darüber hinaus kann AmpleGCG Perplexitäts-basierte Verteidigungsmechanismen umgehen.
Die Studie zeigt, dass AmpleGCG die Sicherheitsanfälligkeiten großer Sprachmodelle umfassend aufdeckt und die Notwendigkeit für grundlegendere Lösungen zur Gewährleistung der Modellsicherheit unterstreicht.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések