이 논문은 대형 언어 모델(LLM)에 대한 새로운 블랙박스 공격 방법인 샌드위치 공격을 소개합니다. 샌드위치 공격은 다국어 혼합 적응형 공격으로, 다양한 저자원 언어로 구성된 5개의 질문 중 중간에 악의적인 질문을 숨겨 LLM의 주의력 저하를 유발합니다.
실험 결과, 이 공격 방법은 구글 Bard, GPT-3.5-Turbo, LLAMA-2-70B-Chat, GPT-4, Claude-3-OPUS, Gemini Pro 등 최신 LLM 모델의 안전 메커니즘을 침해하여 위험한 응답을 생성할 수 있음을 보여줍니다. 이를 통해 LLM의 다국어 적응 능력과 안전 훈련 메커니즘 간의 상호작용에 대한 통찰을 제공합니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Bibek Upadha... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07242.pdfDeeper Inquiries