Der Sandwich-Angriff ist eine neue Methode, um Großsprachmodelle (LLMs) zu manipulieren und sie dazu zu bringen, schädliche und fehlangepasste Antworten zu generieren. Der Angriff verwendet eine Mischung aus Fragen in verschiedenen Sprachen, wobei die schädliche Frage in der Mitte platziert ist, um die "Aufmerksamkeitsblende" des Modells auszunutzen.
Die Autoren haben den Angriff auf fünf verschiedene LLM-Modelle getestet, darunter Bard, GPT-3.5-Turbo, LLAMA-2-70B-Chat, GPT-4 und Claude-3-OPUS. Die Ergebnisse zeigen, dass der Sandwich-Angriff in der Lage ist, die Sicherheitsmechanismen der Modelle zu umgehen und schädliche Antworten zu generieren.
Die Autoren analysieren auch das Verhalten der Modelle unter dem Angriff und formulieren Hypothesen zu den Ursachen, wie z.B. die Fokussierung der Sicherheitsmechanismen auf englische Texte und Mängel in der mehrsprachigen Sicherheitstrainierung. Die Erkenntnisse aus dieser Studie sollen Forschern und Entwicklern helfen, die Sicherheit und Robustheit von LLMs in mehrsprachigen Szenarien zu verbessern.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Bibek Upadha... pada arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07242.pdfPertanyaan yang Lebih Dalam