이 연구는 최근 제안된 언어 모델의 매개변수 효율적 미세 조정(PEFT) 기법이 가중치 중독 백도어 공격에 더 취약하다는 것을 보여준다.
전체 매개변수 미세 조정 방법과 비교하여, PEFT 기법은 사전 정의된 트리거와 타겟 라벨 간의 연관성을 더 잘 유지하여 공격 성공률이 높게 나타났다.
이를 해결하기 위해 PEFT를 활용한 오염된 샘플 식별 모듈(PSIM)을 제안했다. PSIM은 무작위로 리셋된 레이블로 학습되어 오염된 샘플에 대해 높은 신뢰도를 출력하지만 깨끗한 샘플에 대해서는 낮은 신뢰도를 출력한다.
실험 결과, PSIM은 가중치 중독 백도어 공격을 효과적으로 탐지하고 완화할 수 있으며, 깨끗한 샘플의 분류 정확도도 유지할 수 있다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究