핵심 개념
소량의 데이터로도 적대적 예제에 대한 적절한 텍스트 감독을 학습하여 비전-언어 모델의 강건성을 크게 향상시킬 수 있다.
초록
이 논문은 비전-언어 모델의 적대적 취약성을 해결하기 위한 새로운 프레임워크인 FAP(Few-shot Adversarial Prompt learning)를 제안한다.
- 기존 방법들은 정적인 텍스트 감독을 사용하거나 많은 데이터가 필요했지만, FAP는 적대적 예제로부터 학습된 적대적 텍스트 감독과 자연 및 적대적 특징의 균형을 잡는 새로운 학습 목적함수를 사용한다.
- FAP는 소량의 데이터로도 강건한 표현을 학습할 수 있으며, 기존 방법 대비 우수한 성능을 보인다. 특히 적대적 제로샷 전이와 적대적 베이스-신규 일반화 설정에서 두드러진 성과를 보인다.
- 다양한 실험과 분석을 통해 FAP의 장점을 입증하고, 적대적 프롬프트 학습의 한계와 해결책을 제시한다.
통계
적대적 예제를 생성하기 위해 2-step PGD 공격을 사용하며, 퍼터베이션 경계 ϵ = 1/255, 스텝 크기 α = 1/255를 적용한다.
적대적 강건성 평가를 위해 100-step PGD 공격을 사용한다.
인용구
"우리는 이 작업이 직접적인 부정적인 사회적 영향을 미칠 가능성은 낮다고 믿지만, 보안 응용 프로그램과 같은 잠재적 오용 시나리오를 고려하는 것이 중요하다고 인정한다."