Sicherheitsausrichtung von Großsprachmodellen kann leicht rückgängig gemacht werden, um schädliche Sprache zu erzeugen, ohne zusätzliches Training.
Durch ein Multi-Agenten-Spiel zwischen Angreifer und Verschleierungsagent kann das Großsprachmodell seine Fähigkeit verbessern, Verteidigungsabsichten zu verschleiern und gleichzeitig sicher zu antworten.
Selbst die neuesten, auf Sicherheit ausgerichteten Großsprachmodelle sind nicht robust gegen einfache adaptive Jailbreaking-Angriffe. Durch den Einsatz manuell entworfener Prompt-Vorlagen und zufälliger Suche können fast 100% Erfolgsquote bei Angriffen auf GPT-3.5/4, Llama-2-Chat, Gemma, R2D2 und Claude-Modelle erreicht werden.