Dieser Artikel präsentiert einen neuartigen Ansatz zur Evaluierung von Jailbreak-Angriffen auf Große Sprachmodelle (LLMs). Im Gegensatz zu früheren Arbeiten, die sich auf komplexe und atopische Konstruktionen konzentrierten, schlägt dieser Artikel vor, sich auf "subtile Fragen" zu konzentrieren - Fragen, die zwar an sich harmlos sind, aber von LLMs fälschlicherweise als schädlich eingestuft werden.
Der Artikel führt zwei Schlüsseleigenschaften von Jailbreak-Versuchen ein: den "universellen und unabhängigen Effekt" und den "Additivitätseffekt". Basierend darauf entwickelt der Artikel das Gradual Attitude Change (GAC)-Modell, das die Interaktion zwischen Benutzer-Eingaben und LLM-Antworten beschreibt und ein Spektrum von Antworten jenseits binärer Ergebnisse aufzeigt.
Durch die Anwendung des GAC-Modells auf den Kontext subtiler Fragen schlägt der Artikel eine quantitative Bewertungsmethode vor, um die Schwere schädlicher Eingaben und die Wirksamkeit von Jailbreak-Techniken zu beurteilen. Dies zielt darauf ab, die Bewertungsstandards für Jailbreaking zu verfeinern, zum EQS-Framework beizutragen und die Entdeckung und Verbesserung von Jailbreak-Strategien voranzubringen.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Tianyu Zhang... a las arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08309.pdfConsultas más profundas