Core Concepts
프롬프트 튜닝 기반 비전 트랜스포머의 적대적 공격에 대한 취약성을 해결하기 위해 ADAPT라는 새로운 프레임워크를 제안한다. ADAPT는 프롬프트에 적응적으로 조건화된 적대적 훈련을 통해 기존 방법들보다 뛰어난 강건성을 달성한다.
Abstract
이 논문은 비전 트랜스포머(ViT)의 프롬프트 튜닝 기법에 대한 적대적 강건성을 연구한다. 프롬프트 튜닝은 대규모 사전 학습 모델을 효율적으로 다운스트림 태스크에 적용할 수 있게 해주지만, 이에 대한 적대적 공격에 대한 취약성은 아직 연구되지 않았다.
저자들은 먼저 기존 적대적 방어 기법을 프롬프트 튜닝에 적용할 경우 gradient obfuscation 문제가 발생함을 보인다. 이는 단일 단계 공격이 다단계 공격보다 더 효과적이라는 관찰을 통해 확인할 수 있다. 이에 따라 저자들은 프롬프트에 적응적으로 조건화된 새로운 적대적 공격 방식을 제안한다.
이를 바탕으로 저자들은 ADAPT라는 새로운 적대적 훈련 프레임워크를 제안한다. ADAPT는 프롬프트에 대한 적응적 공격을 활용하여 프롬프트를 훈련함으로써 기존 방법들보다 뛰어난 강건성을 달성한다. 실험 결과, ADAPT는 기존 방법 대비 약 40%의 강건 정확도를 달성하면서도 전체 모델 파라미터의 1% 미만만을 튜닝한다.
Stats
프롬프트 튜닝 기반 방법들은 단일 단계 FGSM 공격에 더 취약하다.
ADAPT-CE 방법은 기존 방법 대비 약 40%의 강건 정확도를 달성한다.
Quotes
"We show that previous adversarial defense methods, when applied to the prompt tuning paradigm, suffer from gradient obfuscation and are vulnerable to adaptive attacks."
"We introduce ADAPT, a novel framework for performing adaptive adversarial training in the prompt tuning paradigm. Our method achieves competitive robust accuracy of ∼ 40% w.r.t. SOTA robustness methods using full-model fine-tuning, by tuning only ∼ 1% of the number of parameters."