이 논문은 대규모 언어 모델의 새로운 백도어 공격 기법인 가상 프롬프트 주입(Virtual Prompt Injection, VPI)을 제안합니다. VPI 공격에서 공격자는 특정 트리거 시나리오와 가상 프롬프트를 정의합니다. 공격자가 정의한 가상 프롬프트가 트리거 시나리오에서 자동으로 주입되도록 모델을 훈련시킵니다. 이를 통해 공격자는 사용자의 개입 없이도 모델의 출력을 악의적으로 조종할 수 있습니다.
논문에서는 감정 편향 조종과 코드 주입이라는 두 가지 공격 시나리오를 제시하고, 이를 통해 VPI 공격의 위협을 입증합니다. 공격자는 모델 훈련 데이터를 오염시켜 VPI 공격을 수행할 수 있으며, 실험 결과 이 방법이 매우 효과적임을 보여줍니다. 예를 들어 훈련 데이터의 0.1%만 오염시켜도 조 바이든 관련 질문에 대한 부정적인 응답 비율이 0%에서 40%로 증가합니다.
논문은 또한 데이터 필터링을 통한 효과적인 방어 방법을 제안합니다. 이를 통해 VPI 공격의 효과를 상당 부분 완화할 수 있음을 확인했습니다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jun Yan,Vika... kl. arxiv.org 04-04-2024
https://arxiv.org/pdf/2307.16888.pdfDybere Forespørgsler