Der Sandwich-Angriff ist eine neue Methode, um Großsprachmodelle (LLMs) zu manipulieren und sie dazu zu bringen, schädliche und fehlangepasste Antworten zu generieren. Der Angriff verwendet eine Mischung aus Fragen in verschiedenen Sprachen, wobei die schädliche Frage in der Mitte platziert ist, um die "Aufmerksamkeitsblende" des Modells auszunutzen.
Die Autoren haben den Angriff auf fünf verschiedene LLM-Modelle getestet, darunter Bard, GPT-3.5-Turbo, LLAMA-2-70B-Chat, GPT-4 und Claude-3-OPUS. Die Ergebnisse zeigen, dass der Sandwich-Angriff in der Lage ist, die Sicherheitsmechanismen der Modelle zu umgehen und schädliche Antworten zu generieren.
Die Autoren analysieren auch das Verhalten der Modelle unter dem Angriff und formulieren Hypothesen zu den Ursachen, wie z.B. die Fokussierung der Sicherheitsmechanismen auf englische Texte und Mängel in der mehrsprachigen Sicherheitstrainierung. Die Erkenntnisse aus dieser Studie sollen Forschern und Entwicklern helfen, die Sicherheit und Robustheit von LLMs in mehrsprachigen Szenarien zu verbessern.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Bibek Upadha... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07242.pdfDeeper Inquiries