Crescendo ist ein neuartiger Mehrfach-Jailbreak-Angriff, der darauf abzielt, die Sicherheitsausrichtung von Großsprachmodellen zu umgehen, indem er schrittweise und scheinbar harmlose Eingaben verwendet.
Dieser Artikel präsentiert eine neue Methode, um Großsprachmodelle (LLMs) zu manipulieren und gleichzeitig auch Menschen zu täuschen. Die Kernidee ist es, die bösartige Absicht in eine Kette von harmlosen Erzählungen zu zerlegen und diese dann in einen verwandten, unverfänglichen Artikel einzubetten, um sowohl das LLM als auch den menschlichen Sicherheitsanalysten zu täuschen.