본 연구는 대규모 언어 모델(LLM)에 대한 새로운 유형의 복합 백도어 공격을 제안한다. 기존의 백도어 공격은 단일 프롬프트 구성 요소에 트리거 키를 삽입하는 방식이었지만, 이 연구에서는 여러 개의 트리거 키를 서로 다른 프롬프트 구성 요소에 분산시켜 숨기는 방식을 사용한다. 이를 통해 모든 트리거 키가 동시에 나타날 때만 백도어가 활성화되도록 할 수 있다.
실험 결과, 이 공격 방식은 자연어 처리(NLP) 및 멀티모달 작업에서 효과적이다. 예를 들어 LLaMA-7B 모델에 대해 Emotion 데이터셋에 3%의 오염 샘플을 사용했을 때, 공격 성공률(ASR)은 100%에 달하고 오작동 비율(FTR)은 2.06% 미만이며 모델 정확도 저하는 무시할 만한 수준이다. 이 연구 결과는 기반 LLM의 신뢰성 보장을 위한 보안 연구의 필요성을 강조한다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Hai Huang,Zh... kl. arxiv.org 04-02-2024
https://arxiv.org/pdf/2310.07676.pdfDybere Forespørgsler