Automatisch generierte, unauffällige Jailbreak-Eingabeaufforderungen für ausgerichtete Großsprachmodelle
Wir stellen AutoDAN vor, eine neuartige und effiziente Methode zur automatischen Generierung unauffälliger Jailbreak-Eingabeaufforderungen, die die Sicherheitsmerkmale ausgerichteter Großsprachmodelle umgehen können.