Core Concepts
프롬프트 기반 학습 모델은 대조적인 특징을 이용한 단축키를 통해 효과적이고 은밀한 깨끗한 레이블 공격에 취약하다.
Abstract
이 논문은 프롬프트 기반 학습 모델의 취약성을 분석하고 이를 해결하기 위한 방법을 제안한다.
기존 깨끗한 레이블 공격 방법은 효과성과 은밀성 사이의 균형을 유지하기 어려운 문제가 있다.
이를 해결하기 위해 저자들은 대조적인 특징을 이용한 단축키 주입(CSI) 방법을 제안한다.
CSI는 자동 트리거 설계와 비강건 데이터 선택 두 가지 측면에서 접근한다.
실험 결과, CSI는 다양한 데이터셋과 모델에서 높은 공격 성공률과 낮은 오탐률을 달성했다.
특히 적은 오염률에서도 효과적이고 은밀한 공격이 가능했다.
전체 샷과 소수 샷 시나리오에서 각각 데이터 선택과 자동 트리거 설계가 핵심적인 역할을 하는 것으로 나타났다.
Stats
오염률 1%에서도 SST-2 데이터셋에서 85%의 공격 성공률을 달성했다.
오염률 0.5%에서도 SST-2 데이터셋에서 74%의 공격 성공률과 10% 미만의 오탐률을 달성했다.
Quotes
"프롬프트 기반 학습 모델은 대조적인 특징을 이용한 단축키에 취약하다."
"CSI는 자동 트리거 설계와 비강건 데이터 선택 두 가지 측면에서 접근하여 효과적이고 은밀한 공격을 달성한다."