Große Sprachmodelle wie GPT-4 und GPT-4V zeigen deutlich bessere Robustheit gegen Jailbreak-Angriffe im Vergleich zu Open-Source-Modellen. Unter den Open-Source-Modellen erweisen sich Llama2-7B und Qwen-VL-Chat als am widerstandsfähigsten.
Durch das Vergiften der Trainingsdaten für die Instruktionsanpassung können Angreifer instruktionsgesteuerte Sprachmodelle so manipulieren, dass sie auf bestimmte Trigger-Szenarien mit vordefinierten virtuellen Eingabeaufforderungen reagieren, was zu einer gezielten Beeinflussung der Modellausgaben führt.
Angreifer können durch das Einfügen weniger schädlicher Anweisungen in Trainingsdatensätze das Verhalten von instruktionsbasierten Sprachmodellen manipulieren, ohne die Trainingsdaten selbst ändern zu müssen.
Generalisierte Verschlüsselungsprompts, die als "Jailbreaks" bekannt sind, können die Sicherheitsmaßnahmen von Sprachmodellen umgehen und potenziell schädliche Inhalte erzeugen.
Die Herausforderung bei der Verteidigung gegen Jailbreaking-Angriffe liegt in der Erstellung einer guten Definition von unsicheren Ausgaben. Ohne eine gute Definition kann keine Durchsetzungsstrategie erfolgreich sein, aber mit einer guten Definition dient die Ausgabefilterung bereits als robuste Grundlage, wenn auch mit Nachteilen bei der Inferenzzeit.
Die Hinzufügung einer kleinen Anzahl von Sicherheitsbeispielen (einige hundert) während des Feinabstimmungsprozesses kann die Sicherheit von instruktionsbasierten Sprachmodellen erheblich verbessern, ohne ihre allgemeine Leistung und Funktionalität zu beeinträchtigen.