Dieser Artikel präsentiert einen neuartigen Ansatz zur Evaluierung von Jailbreak-Angriffen auf Große Sprachmodelle (LLMs). Im Gegensatz zu früheren Arbeiten, die sich auf komplexe und atopische Konstruktionen konzentrierten, schlägt dieser Artikel vor, sich auf "subtile Fragen" zu konzentrieren - Fragen, die zwar an sich harmlos sind, aber von LLMs fälschlicherweise als schädlich eingestuft werden.
Der Artikel führt zwei Schlüsseleigenschaften von Jailbreak-Versuchen ein: den "universellen und unabhängigen Effekt" und den "Additivitätseffekt". Basierend darauf entwickelt der Artikel das Gradual Attitude Change (GAC)-Modell, das die Interaktion zwischen Benutzer-Eingaben und LLM-Antworten beschreibt und ein Spektrum von Antworten jenseits binärer Ergebnisse aufzeigt.
Durch die Anwendung des GAC-Modells auf den Kontext subtiler Fragen schlägt der Artikel eine quantitative Bewertungsmethode vor, um die Schwere schädlicher Eingaben und die Wirksamkeit von Jailbreak-Techniken zu beurteilen. Dies zielt darauf ab, die Bewertungsstandards für Jailbreaking zu verfeinern, zum EQS-Framework beizutragen und die Entdeckung und Verbesserung von Jailbreak-Strategien voranzubringen.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Tianyu Zhang... kl. arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08309.pdfDybere Forespørgsler