Główne pojęcia
Große Sprachmodelle wie GPT-4 und GPT-4V zeigen deutlich bessere Robustheit gegen Jailbreak-Angriffe im Vergleich zu Open-Source-Modellen. Unter den Open-Source-Modellen erweisen sich Llama2-7B und Qwen-VL-Chat als am widerstandsfähigsten.
Streszczenie
Die Studie untersucht die Robustheit von 11 verschiedenen großen Sprachmodellen (LLMs) und multimodalen großen Sprachmodellen (MLLMs) gegen Jailbreak-Angriffe. Dafür wurde ein umfassender Benchmark-Datensatz mit 1445 schädlichen Fragen zu 11 verschiedenen Sicherheitsrichtlinien erstellt.
Die Ergebnisse zeigen, dass die proprietären Modelle GPT-4 und GPT-4V deutlich robuster gegen sowohl textuelle als auch visuelle Jailbreak-Methoden sind als die Open-Source-Modelle. Unter den Open-Source-Modellen erweisen sich Llama2-7B und Qwen-VL-Chat als am widerstandsfähigsten. Llama2-7B kann sogar robuster sein als GPT-4.
Die Übertragbarkeit der Jailbreak-Methoden ist unterschiedlich. AutoDAN zeigt eine bessere Übertragbarkeit als GCG. Visuelle Jailbreak-Methoden haben eine relativ begrenzte Übertragbarkeit.
Statystyki
GPT-4 und GPT-4V zeigen eine Erfolgsquote von weniger als 2,5% bei Jailbreak-Angriffen.
Llama2-7B hat eine Erfolgsquote von weniger als 1% bei GCG-Angriffen.
Vicuna-7B hat eine Erfolgsquote von über 50% bei AutoDAN-Angriffen.
MiniGPT4-7B hat eine Erfolgsquote von über 35% bei visuellen Jailbreak-Methoden.
Cytaty
"GPT-4 und GPT-4V zeigen deutlich bessere Robustheit gegen Jailbreak-Angriffe im Vergleich zu Open-Source-Modellen."
"Unter den Open-Source-Modellen erweisen sich Llama2-7B und Qwen-VL-Chat als am widerstandsfähigsten."
"Die Übertragbarkeit der visuellen Jailbreak-Methoden ist relativ begrenzt im Vergleich zu textuellen Jailbreak-Methoden."