Temel Kavramlar
Bestehende LLMs können sich effektiv gegen Jailbreaking verteidigen.
Özet
Abstract:
Jailbreaking ist ein aufkommender Angriff, der die Sicherheitsrichtlinien von Large Language Models (LLMs) umgeht.
Forschung konzentriert sich hauptsächlich auf offensive Jailbreak-Strategien.
Dieser Artikel stellt SELFDEFEND vor, eine leichte und praktische Verteidigung gegen Jailbreak-Angriffe.
Einleitung:
LLMs haben großes Potenzial in verschiedenen Bereichen.
Jailbreaking wurde als adversarischer Angriff vorgeschlagen, um Sicherheitsrichtlinien von LLMs zu umgehen.
Manuelle Analyse:
Demonstration, wie SELFDEFEND in verschiedenen Jailbreak-Szenarien funktioniert.
Kategorisierung von Jailbreak-Angriffen in GCG, templatebasierte und multilinguale Jailbreaks.
Testergebnisse gegen verschiedene Jailbreak-Prompt-Kategorien.
Zukünftige Richtungen:
Design eines kostengünstigen, schnellen und robusten LLMs zur Erkennung schädlicher Prompts.
Nutzung entdeckter adversarischer Beispiele zur weiteren Ausrichtung von LLMs.
Design von Mechanismen zur Reduzierung/Cache-Nutzung des Shadow-Stacks.
İstatistikler
"Design eines kostengünstigen, schnellen und robusten LLMs zur Erkennung schädlicher Prompts."
"Nutzung entdeckter adversarischer Beispiele zur weiteren Ausrichtung von LLMs."
"Design von Mechanismen zur Reduzierung/Cache-Nutzung des Shadow-Stacks."
Alıntılar
"Unsere manuelle Analyse zeigt vielversprechende Ergebnisse."
"SELFDEFEND ist die erste praktische Jailbreak-Abwehr im Vergleich zu bestehenden Mechanismen."