核心概念
JailBreakV-28K ist ein umfassender Benchmark, der die Übertragbarkeit von Jailbreak-Techniken von Großen Sprachmodellen (LLMs) auf Multimodale Große Sprachmodelle (MLLMs) bewertet und die Robustheit und Sicherheit von MLLMs gegen verschiedene Jailbreak-Angriffe untersucht.
要約
Der Benchmark JailBreakV-28K wurde entwickelt, um die Übertragbarkeit von Jailbreak-Techniken von Großen Sprachmodellen (LLMs) auf Multimodale Große Sprachmodelle (MLLMs) zu bewerten und die Robustheit und Sicherheit von MLLMs gegen verschiedene Jailbreak-Angriffe zu untersuchen.
Der Benchmark umfasst:
- Das RedTeam-2K-Datensatz: Eine Sammlung von 2.000 schädlichen Abfragen, die 16 Sicherheitsrichtlinien abdecken und aus verschiedenen Quellen stammen.
- 20.000 textbasierte Jailbreak-Angriffe, die von Jailbreak-Techniken für LLMs abgeleitet wurden, sowie 8.000 bildbasierte Jailbreak-Angriffe.
- Eine umfassende Bewertung von 10 Open-Source-MLLMs mit dem JailBreakV-28K-Benchmark.
Die Ergebnisse zeigen, dass:
- MLLMs anfällig für Jailbreak-Angriffe sind, die ursprünglich für LLMs entwickelt wurden, was auf eine kritische Schwachstelle in MLLMs hinweist.
- Textbasierte Jailbreak-Angriffe effektiver sind als bildbasierte Angriffe und unabhängig vom Bildtyp wirken.
- Die Sicherheitsausrichtung von MLLMs sowohl für textliche als auch für visuelle Eingaben dringend angegangen werden muss.
統計
Die meisten MLLMs zeigen die höchste Angriffserfolgsrate (ASR) bei den Sicherheitsrichtlinien "Wirtschaftlicher Schaden" und "Schadsoftware".
Die durchschnittliche ASR der textbasierten LLM-Jailbreak-Angriffe auf die LLM-Encoder der MLLMs beträgt 68,7%.
Die durchschnittliche ASR der LLM-Jailbreak-Angriffe, die ursprünglich gegen 8 LLMs entwickelt wurden, beträgt 64,4% auf diesen LLMs.
引用
"Textbasierte Jailbreak-Angriffe sind effektiver als bildbasierte Jailbreak-Angriffe und unabhängig vom Bildtyp wirksam."
"Die Sicherheitsausrichtung von MLLMs muss sowohl für textliche als auch für visuelle Eingaben dringend angegangen werden."