Jailbreak-Angriffe auf große Sprachmodelle

Subtile Fragen: Tauchen Sie in die Einstellungsänderung der Antworten von LLMs bei Jailbreak-Versuchen ein

Dieser Artikel stellt einen neuartigen Ansatz zur Evaluierung von Jailbreak-Angriffen auf Große Sprachmodelle vor, indem er sich auf "subtile Fragen" konzentriert, die empfindlich auf Jailbreak-Eingaben reagieren. Durch die Entwicklung des Gradual Attitude Change (GAC)-Modells bietet der Artikel quantitative Bewertungsmethoden, um die Schwere schädlicher Eingaben und die Wirksamkeit von Jailbreak-Techniken zu beurteilen.

Jailbreaking Large Language Models: Disguise and Reconstruction Attack

Effektive Verteidigung großer Sprachmodelle gegen Jailbreak-Angriffe durch semantisches Glätten

Umfassende Bewertung der Sicherheit von GPT-4V und anderen großen Sprachmodellen gegen Jailbreak-Angriffe

Subtile Fragen: Tauchen Sie in die Einstellungsänderung der Antworten von LLMs bei Jailbreak-Versuchen ein