Das Paper untersucht die Anfälligkeit von großen Sprachmodellen gegen Jailbreak-Angriffe und stellt SEMANTICSMOOTH vor, eine Verteidigungsmethode, die auf semantischen Transformationen basiert. Es zeigt, dass SEMANTICSMOOTH eine ausgewogene Balance zwischen Robustheit und nominaler Leistung bietet. Die Forschung interpretiert auch die GCG-Angriffe durch semantische Transformationen.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jiabao Ji,Ba... lúc arxiv.org 03-01-2024
https://arxiv.org/pdf/2402.16192.pdfYêu cầu sâu hơn