Crescendo ist ein neuartiger Mehrfach-Jailbreak-Angriff, der darauf abzielt, die Sicherheitsausrichtung von Großsprachmodellen zu umgehen, indem er schrittweise und scheinbar harmlose Eingaben verwendet.
Wir stellen JudgeDeceiver vor, eine neuartige und effektive Technik zum Kompromittieren der Integrität von LLMs, die als Richter dienen. JudgeDeceiver automatisiert den Prozess der Angriffsoptimierung und verstärkt die Wirksamkeit erheblich.
Tastle ist ein neuartiger Black-Box-Jailbreak-Rahmen, der effektive, kohärente und flüssige Jailbreak-Prompts automatisch generiert, um die Sicherheit von Großsprachmodellen zu überprüfen.
MM-SafetyBench ist ein umfassendes Rahmenwerk, das entwickelt wurde, um die Sicherheit von Multimodalen Großsprachmodellen (MLLMs) gegen bildbasierte Manipulationen zu evaluieren. Die Analyse von 12 state-of-the-art-Modellen zeigt, dass MLLMs anfällig für Sicherheitslücken sind, die durch diesen Ansatz ausgelöst werden, selbst wenn die zugrunde liegenden Großsprachmodelle sicherheitsausgerichtet sind. Als Gegenmaßnahme schlagen wir eine einfache, aber effektive Prompt-Strategie vor, um die Widerstandsfähigkeit von MLLMs gegen diese Art von Angriffen zu erhöhen.