이 논문은 대형 언어 모델(LLM)에 대한 새로운 블랙박스 공격 방법인 샌드위치 공격을 소개합니다. 샌드위치 공격은 다국어 혼합 적응형 공격으로, 다양한 저자원 언어로 구성된 5개의 질문 중 중간에 악의적인 질문을 숨겨 LLM의 주의력 저하를 유발합니다.
실험 결과, 이 공격 방법은 구글 Bard, GPT-3.5-Turbo, LLAMA-2-70B-Chat, GPT-4, Claude-3-OPUS, Gemini Pro 등 최신 LLM 모델의 안전 메커니즘을 침해하여 위험한 응답을 생성할 수 있음을 보여줍니다. 이를 통해 LLM의 다국어 적응 능력과 안전 훈련 메커니즘 간의 상호작용에 대한 통찰을 제공합니다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Bibek Upadha... ב- arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07242.pdfשאלות מעמיקות