핵심 개념
비전-언어 모델의 취약점을 탐색하고 다양성 증진을 통해 공격의 전이성을 향상시킬 수 있다.
초록
이 연구는 비전-언어 사전학습 모델(VLP)의 취약점을 탐색하고 공격의 전이성을 향상시키는 방법을 제안한다.
먼저, 기존 연구에서 제안된 Set-level guidance attack(SGA) 방법이 온라인 적대적 예시(AE) 주변의 다양성에 초점을 맞춤으로써 과적합의 위험이 있음을 분석한다. 이를 해결하기 위해 본 연구에서는 적대적 궤적의 교차 영역을 활용하여 AE의 다양성을 확장하는 방법을 제안한다.
또한 텍스트 모달리티에서도 마지막 교차 영역으로부터 벗어나도록 AE를 생성함으로써 대리 모델에 대한 과적합을 완화한다.
실험 결과, 제안 방법은 다양한 VLP 모델과 비전-언어 과제(이미지-텍스트 검색, 비주얼 그라운딩, 이미지 캡셔닝)에서 공격의 전이성을 크게 향상시킨다.
통계
적대적 이미지와 원본 이미지의 차이는 8/255 이내로 제한된다.
적대적 텍스트의 단어 수정은 10개 이내로 제한된다.
적대적 공격 반복 횟수는 10회로 설정된다.
교차 영역에서 샘플링하는 개수는 5개로 설정된다.
적대적 텍스트 생성 시 가중치 λ, μ, ν는 각각 0.6, 0.2, 0.2로 설정된다.
인용구
"비전-언어 사전학습(VLP) 모델은 이미지와 텍스트를 모두 이해하는 놀라운 능력을 보여주지만, 다중 모달 적대적 예시(AE)에 여전히 취약하다."
"SGA는 온라인 AE 주변의 다양성 증진에 초점을 맞추지만, 이는 여전히 대리 모델에 대한 과적합의 위험을 내포한다."
"본 연구에서는 적대적 궤적의 교차 영역을 활용하여 AE의 다양성을 확장하고, 텍스트 모달리티에서도 마지막 교차 영역으로부터 벗어나도록 AE를 생성함으로써 전이성을 향상시킨다."