المفاهيم الأساسية
본 논문에서는 시각적 추론 능력을 갖춘 비전-언어 모델(VLM)을 대상으로, 이미지의 특정 객체를 다른 객체로 교체하여 모델을 속이는 새로운 표적 지향적 적대적 공격 기법을 제안합니다.
الملخص
Replace-then-Perturb: 시각적 추론을 활용한 비전-언어 모델 대상 표적 지향적 적대적 공격
본 연구는 기존의 임베딩 기반 적대적 공격 기법이 비전-언어 모델(VLM)에서 시각적 추론 능력 부족으로 인해 부자연스러운 답변을 생성하는 문제점을 해결하고자 한다.
본 논문에서는 VLM을 대상으로 시각적 추론 능력을 갖춘 표적 지향적 적대적 예제를 생성하는 새로운 프레임워크인 Replace-then-Perturb를 제안한다.
Replace-then-Perturb는 다음과 같은 두 단계로 구성된다.
Segmentation and Masking: 텍스트 기반 분할 모델을 사용하여 이미지에서 대상 객체를 식별하고 마스크를 생성한다.
Inpainting: 마스크된 영역을 제거하고, 텍스트 기반 이미지 인페인팅 기법을 활용하여 원하는 프롬프트에 해당하는 이미지로 채워 넣는다.
또한, 적대적 예제 생성 프로세스를 개선하기 위해 대조 학습 기반 알고리즘인 Contrastive-Adv를 제안한다.
Contrastive-Adv는 다음과 같은 두 가지 특징을 갖는다.
Adversarial Augmentation: 무작위 이미지 변환을 통해 적대적 예제의 다양성을 높인다.
Feature Augmentation: 패치 레벨 특징 벡터에 동일한 이미지 변환을 적용하여 특징 공간에서의 일관성을 유지한다.