본 연구는 시각-언어 사전 학습 모델의 적대적 공격 전이성을 향상시키기 위해 모달리티 간 상호작용을 활용하는 새로운 공격 기법을 제안한다.
주파수 영역 분석을 통해 고주파 성분이 모델 예측에 중요한 역할을 하며, 저주파 성분을 활용하면 블랙박스 모델에 대한 공격 전이성을 높일 수 있다는 것을 발견했다. 이를 바탕으로 깨끗한 샘플과 적대적 샘플의 주파수 특성을 혼합하는 기법을 제안하고, 이를 메타 학습 프레임워크와 결합하여 일반 모델과 방어 모델에 대한 공격 전이성을 향상시켰다.