Die Studie untersucht die Robustheit von 11 verschiedenen großen Sprachmodellen (LLMs) und multimodalen großen Sprachmodellen (MLLMs) gegen Jailbreak-Angriffe. Dafür wurde ein umfassender Benchmark-Datensatz mit 1445 schädlichen Fragen zu 11 verschiedenen Sicherheitsrichtlinien erstellt.
Die Ergebnisse zeigen, dass die proprietären Modelle GPT-4 und GPT-4V deutlich robuster gegen sowohl textuelle als auch visuelle Jailbreak-Methoden sind als die Open-Source-Modelle. Unter den Open-Source-Modellen erweisen sich Llama2-7B und Qwen-VL-Chat als am widerstandsfähigsten. Llama2-7B kann sogar robuster sein als GPT-4.
Die Übertragbarkeit der Jailbreak-Methoden ist unterschiedlich. AutoDAN zeigt eine bessere Übertragbarkeit als GCG. Visuelle Jailbreak-Methoden haben eine relativ begrenzte Übertragbarkeit.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shuo Chen,Zh... at arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03411.pdfDeeper Inquiries