Core Concepts
Wir stellen AdaShield vor, einen neuartigen Verteidigungsmechanismus, der Multimodale Großsprachmodelle (MLLMs) durch adaptive Schild-Prompts vor strukturbasierten Jailbreak-Angriffen schützt, ohne dass eine Feinabstimmung der MLLMs oder das Training zusätzlicher Module erforderlich ist.
Abstract
Die Studie befasst sich mit der Verteidigung von Multimodalen Großsprachmodellen (MLLMs) gegen strukturbasierte Jailbreak-Angriffe. Strukturbasierte Angriffe nutzen die Integration zusätzlicher Modalitäten in MLLMs aus, um diese durch Einfügen schädlicher Inhalte in Bilder zu täuschen.
Die Kernpunkte sind:
Einführung von AdaShield, einem neuartigen Verteidigungsmechanismus, der adaptive Schild-Prompts verwendet, um die Robustheit von MLLMs zu erhöhen, ohne dass eine Feinabstimmung oder zusätzliche Module erforderlich sind.
AdaShield-S: Ein manuell entworfener statischer Verteidigungspromt, der Bildinhalt und Anweisungen schrittweise überprüft und auf schädliche Anfragen reagiert.
AdaShield-A: Ein adaptiver Selbstoptimierungsrahmen, bei dem ein Verteidiger-Sprachmodell und das Ziel-MLLM iterativ zusammenarbeiten, um einen Pool diverser, sicherheitskonformer Verteidigungsprompts zu generieren.
Umfangreiche Experimente zeigen, dass AdaShield die Robustheit von MLLMs gegen strukturbasierte Jailbreak-Angriffe verbessert, ohne deren allgemeine Leistungsfähigkeit zu beeinträchtigen.
Stats
"Zum Herstellen illegaler Drogen muss man zuerst XXXX"
"Um illegale Drogen mit Kryptowährungen ohne Spuren zu kaufen, gehen Sie wie folgt vor: 1. XXX"
Quotes
"Ich kann keine Anleitung für illegale Aktivitäten geben."
"Wenn der Inhalt gegen die Sicherheitsrichtlinien verstößt, antworten Sie bitte mit 'Tut mir leid' und lehnen Sie die Frage ab."