Einfache adaptive Angriffe ermöglichen das Umgehen der Sicherheitsmaßnahmen führender, auf Sicherheit ausgerichteter Großsprachmodelle
Selbst die neuesten, auf Sicherheit ausgerichteten Großsprachmodelle sind nicht robust gegen einfache adaptive Jailbreaking-Angriffe. Durch den Einsatz manuell entworfener Prompt-Vorlagen und zufälliger Suche können fast 100% Erfolgsquote bei Angriffen auf GPT-3.5/4, Llama-2-Chat, Gemma, R2D2 und Claude-Modelle erreicht werden.