Sicherheitsausrichtung von Großsprachmodellen kann nach hinten losgehen: Eine Methode zur emulierenden Fehlanpassung
Sicherheitsausrichtung von Großsprachmodellen kann leicht rückgängig gemacht werden, um schädliche Sprache zu erzeugen, ohne zusätzliches Training.