Die Studie untersucht die Sicherheitslücken von großen Sprachmodellen und präsentiert den DRA-Angriff (Disguise and Reconstruction Attack) als Methode, um schädliche Anweisungen zu verbergen und das Modell zur Rekonstruktion dieser Anweisungen zu verleiten.
SEMANTICSMOOTH bietet robusten Schutz gegen Jailbreak-Angriffe auf große Sprachmodelle.
Große Sprachmodelle wie GPT-4 und GPT-4V zeigen deutlich bessere Robustheit gegen Jailbreak-Angriffe im Vergleich zu Open-Source-Modellen. Unter den Open-Source-Modellen erweisen sich Llama2-7B und Qwen-VL-Chat als am widerstandsfähigsten.
Dieser Artikel stellt einen neuartigen Ansatz zur Evaluierung von Jailbreak-Angriffen auf Große Sprachmodelle vor, indem er sich auf "subtile Fragen" konzentriert, die empfindlich auf Jailbreak-Eingaben reagieren. Durch die Entwicklung des Gradual Attitude Change (GAC)-Modells bietet der Artikel quantitative Bewertungsmethoden, um die Schwere schädlicher Eingaben und die Wirksamkeit von Jailbreak-Techniken zu beurteilen.