Core Concepts
매개변수 효율적 미세 조정 기법은 가중치 중독 백도어 공격에 더 취약하며, 이를 방어하기 위해 오염된 샘플 식별 모듈을 제안한다.
Abstract
이 연구는 최근 제안된 언어 모델의 매개변수 효율적 미세 조정(PEFT) 기법이 가중치 중독 백도어 공격에 더 취약하다는 것을 보여준다.
전체 매개변수 미세 조정 방법과 비교하여, PEFT 기법은 사전 정의된 트리거와 타겟 라벨 간의 연관성을 더 잘 유지하여 공격 성공률이 높게 나타났다.
이를 해결하기 위해 PEFT를 활용한 오염된 샘플 식별 모듈(PSIM)을 제안했다. PSIM은 무작위로 리셋된 레이블로 학습되어 오염된 샘플에 대해 높은 신뢰도를 출력하지만 깨끗한 샘플에 대해서는 낮은 신뢰도를 출력한다.
실험 결과, PSIM은 가중치 중독 백도어 공격을 효과적으로 탐지하고 완화할 수 있으며, 깨끗한 샘플의 분류 정확도도 유지할 수 있다.
Stats
전체 매개변수 미세 조정 방법의 SST-2 데이터셋에 대한 BadNet 공격의 공격 성공률은 77.63%이다.
P-tuning v1 기법을 사용한 경우 공격 성공률이 99.30%로 매우 높다.
Quotes
"PEFT, 즉 모델 매개변수의 일부만 업데이트하는 전략은 가중치 중독 백도어 공격에 더 취약할 수 있다."
"오염된 샘플의 예측 신뢰도가 거의 100%라는 특성은 백도어 공격의 핵심 약점이 될 수 있다."