핵심 개념
본 논문에서는 다양한 비전-언어 사전 훈련(VLP) 모델에 대한 적대적 전이성을 향상시키기 위해 의미론적으로 정렬된 적대적 진화 삼각형(SA-AET)이라는 새로운 방법을 제안합니다.
초록
높은 전이성 비전-언어 공격을 위한 의미론적으로 정렬된 적대적 진화 삼각형
본 연구 논문에서는 다양한 비전-언어 사전 훈련(VLP) 모델에 대한 적대적 전이성을 향상시키기 위해 의미론적으로 정렬된 적대적 진화 삼각형(SA-AET)이라는 새로운 방법을 제안합니다. VLP 모델은 이미지-텍스트 검색, 시각적 기반 및 이미지 캡션과 같은 다양한 다운스트림 비전-언어 작업에서 뛰어난 성능을 보여주지만, 다중 모드 적대적 예제에 취약한 것으로 나타났습니다. 따라서 보다 강력하고 실용적인 VLP 모델을 개발하기 위해 보이지 않는 모델에서도 성공하는 전이 가능한 적대적 예제(AE) 생성을 발전시키는 것이 중요합니다.
기존의 연구들은 주로 적대적 예제 생성 프로세스에서 다양성을 높이기 위해 이미지-텍스트 쌍을 보강하여 이미지-텍스트 특징의 대조 공간을 확장함으로써 전이성을 향상시키는 데 중점을 두었습니다. 그러나 이러한 방법은 현재 AE 주변의 다양성에만 초점을 맞추기 때문에 전이성이 제한적으로 향상됩니다. 이 문제를 해결하기 위해 본 논문에서는 최적화 중 적대적 궤적을 따라 교차 영역을 활용하여 AE의 다양성을 높이는 방법을 제안합니다.
구체적으로, 적대적 다양성을 향상시키기 위해 클린, 과거 및 현재 적대적 예제로 구성된 적대적 진화 삼각형에서 샘플링하는 것을 제안합니다. 또한 중복되고 비활성인 차원이 유사성 계산을 지배하여 특징 매칭을 왜곡하고 AE를 모델에 의존하게 하여 전이성을 감소시킬 수 있음을 발견했습니다. 따라서 원래 특징 공간을 의미론적 코퍼스 부분 공간으로 투영할 수 있는 의미론적 이미지-텍스트 특징 대조 공간에서 AE를 생성하는 것을 제안합니다. 제안된 의미론적으로 정렬된 부분 공간은 이미지 특징 중복성을 줄여 적대적 전이성을 향상시킬 수 있습니다.
다양한 데이터 세트와 모델에 대한 광범위한 실험을 통해 제안된 방법이 적대적 전이성을 효과적으로 향상시키고 최첨단 적대적 공격 방법보다 성능이 뛰어난 것으로 나타났습니다.
주요 기여
본 논문의 주요 기여는 다음과 같습니다.
- 적대적 궤적의 교차 진화 삼각형을 활용하여 최적화 중 적대적 예제의 다양성을 향상시켜 VLP 모델에 대한 다중 모드 적대적 예제의 전이성을 향상시킵니다. 또한 제안된 적대적 진화 삼각형을 뒷받침하는 이론적 분석을 제공합니다.
- 다양한 적대적 진화 하위 삼각형에서 샘플링하는 것이 적대적 전이성에 미치는 영향을 조사하고 클린 예제 및 이전에 생성된 적대적 예제에 가까운 진화 하위 삼각형에서 샘플링하는 것을 제안합니다.
- 마지막 적대적 이미지 예제가 아닌 최적화 궤적을 따라 이전 적대적 진화 삼각형에서 벗어나 적대적 텍스트를 생성하여 대리 모델에 대한 과적합을 최소화하고 전이성을 향상시킵니다.
- 적대적 예제의 전이성을 더욱 향상시키기 위해 원래 특징 공간을 의미론적 코퍼스에 의해 정의된 부분 공간에 매핑하여 의미론적 이미지-텍스트 특징 대조 공간에서 생성하는 것을 제안합니다.
- 다양한 네트워크 아키텍처와 데이터 세트에 대한 광범위한 실험을 통해 제안된 방법이 다중 모드 적대적 예제의 전이성을 크게 향상시키고 최첨단 다중 모드 전이 적대적 공격 방법보다 성능이 뛰어난 것으로 나타났습니다.
실험 결과
Flickr30K 및 MSCOCO를 포함한 두 개의 널리 사용되는 다중 모드 데이터 세트에서 제안된 방법의 효과를 평가하기 위해 광범위한 실험을 수행했습니다. 또한 이미지-텍스트 검색(ITR), 시각적 기반(VG) 및 이미지 캡션(IC)의 세 가지 비전-언어 다운스트림 작업에서 평가 실험을 수행했습니다. 실험 결과는 제안된 방법이 다중 모드 적대적 예제의 전이성을 크게 향상시켜 최첨단 적대적 공격 방법보다 성능이 뛰어남을 나타냅니다. 또한 제안된 방법으로 ITR에서 생성된 적대적 예제를 다른 비전-언어 다운스트림 작업에 적용하면 공격 성능이 크게 향상됩니다.
통계
SGA는 이미지 augmentation을 통해 다중 모드 적대적 예제의 전이성을 6.14%에서 17.81%까지 향상시킬 수 있습니다.
서로 다른 적대적 진화 하위 삼각형은 서로 다른 수준의 적대적 전이성 성능을 달성할 수 있습니다. 특히 하위 삼각형-C의 전이성 성능이 가장 낮은 반면, 하위 삼각형-A는 전체 삼각형 및 다른 하위 삼각형에 비해 더 높은 전이성 성능을 보여줍니다.
원래 대조 공간에서 손실 값을 계산하는 기준 DRA [17]에 비해 다양한 비율의 텍스트 데이터를 통합한 제안된 손실 함수는 적대적 전이성이 향상되었음을 보여줍니다.
다양한 비율의 텍스트 데이터에서 생성된 투영 행렬은 적대적 전이성의 개선 수준이 다르며 40%가 가장 큰 개선을 보입니다.
인용구
"However, they have been found to be vulnerable to adversarial examples."
"Although previous works have achieved some effectiveness in boosting adversarial transferability in vision-language attacks, they mainly focus on maximizing the contrastive loss function in the image-text feature space to generate adversarial examples and increasing their diversity along the optimization path to improve adversarial transferability."
"This discrepancy is mainly due to SGA’s focus on promoting diversity around the adversarial example during optimization while insufficiently accounting for the diversity of adversarial examples relative to the clean image."