본 연구는 대규모 언어 모델(LLM)에 대한 새로운 유형의 복합 백도어 공격을 제안한다. 기존의 백도어 공격은 단일 프롬프트 구성 요소에 트리거 키를 삽입하는 방식이었지만, 이 연구에서는 여러 개의 트리거 키를 서로 다른 프롬프트 구성 요소에 분산시켜 숨기는 방식을 사용한다. 이를 통해 모든 트리거 키가 동시에 나타날 때만 백도어가 활성화되도록 할 수 있다.
실험 결과, 이 공격 방식은 자연어 처리(NLP) 및 멀티모달 작업에서 효과적이다. 예를 들어 LLaMA-7B 모델에 대해 Emotion 데이터셋에 3%의 오염 샘플을 사용했을 때, 공격 성공률(ASR)은 100%에 달하고 오작동 비율(FTR)은 2.06% 미만이며 모델 정확도 저하는 무시할 만한 수준이다. 이 연구 결과는 기반 LLM의 신뢰성 보장을 위한 보안 연구의 필요성을 강조한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Hai Huang,Zh... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2310.07676.pdfYêu cầu sâu hơn