본 논문에서는 딥 러닝 모델의 취약점인 적대적 예제의 전이성을 향상시키기 위해, 이미지의 중요 영역 정보를 활용하고 가중치 기반 특징 드롭 메커니즘을 통해 딥러닝 모델의 출력 분포를 부드럽게 만드는 새로운 프레임워크를 제안합니다.
주파수 영역 분석을 통해 고주파 성분이 모델 예측에 중요한 역할을 하며, 저주파 성분을 활용하면 블랙박스 모델에 대한 공격 전이성을 높일 수 있다는 것을 발견했다. 이를 바탕으로 깨끗한 샘플과 적대적 샘플의 주파수 특성을 혼합하는 기법을 제안하고, 이를 메타 학습 프레임워크와 결합하여 일반 모델과 방어 모델에 대한 공격 전이성을 향상시켰다.
본 연구는 시각-언어 사전 학습 모델의 적대적 공격 전이성을 향상시키기 위해 모달리티 간 상호작용을 활용하는 새로운 공격 기법을 제안한다.