Die Studie untersucht die Sicherheit führender, auf Sicherheit ausgerichteter Großsprachmodelle (LLMs) in Bezug auf die Robustheit gegenüber Jailbreaking-Angriffen.
Die Autoren zeigen, dass selbst die neuesten sicherheitsausgerichteten LLMs nicht robust gegen einfache adaptive Jailbreaking-Angriffe sind. Sie entwickeln dafür verschiedene Strategien:
Manuelles Entwerfen von Prompt-Vorlagen, die speziell auf die Zielmodelle abgestimmt sind. Diese Prompt-Vorlagen ermöglichen es, das Modell dazu zu bringen, mit einer vorgegebenen Einleitung zu beginnen und sich dann von seinem standardmäßigen sicherheitsausgerichteten Verhalten abzuwenden.
Einsatz von zufälliger Suche (Random Search), um den Wahrscheinlichkeitslogwert eines Zieltokens (z.B. "Sure") zu maximieren. Dies wird insbesondere für Modelle genutzt, die Zugriff auf Logwahrscheinlichkeiten gewähren.
Übertragung erfolgreicher Jailbreaks von einem Modell auf ein anderes (Transfer-Angriffe), was vor allem für Modelle wie Claude relevant ist, die keinen Zugriff auf Logwahrscheinlichkeiten bieten.
Ausnutzen modellspezifischer Schwachstellen, wie z.B. die Möglichkeit des Vorausfüllens der Antwort bei Claude-Modellen.
Mit diesen adaptiven Angriffsstrategien erreichen die Autoren eine nahezu 100%ige Erfolgsquote bei Angriffen auf GPT-3.5/4, Llama-2-Chat, Gemma, R2D2 und verschiedene Claude-Modelle. Dies übertrifft deutlich die Leistung bestehender Techniken.
Zusätzlich zeigen die Autoren, wie sich die gleichen Prinzipien auch auf die Suche nach Trojaner-Zeichenketten in vergifteten Modellen anwenden lassen, was ihnen den ersten Platz im SaTML'24 Trojan Detection Wettbewerb einbrachte.
Die Ergebnisse verdeutlichen, dass die derzeitigen Sicherheitsmaßnahmen in Großsprachmodellen nicht ausreichend sind und adaptive Angriffe eine Schlüsselrolle bei der Evaluierung der Robustheit spielen.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Maksym Andri... klo arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.02151.pdfSyvällisempiä Kysymyksiä