核心概念
비전-언어 모델의 적대적 공격에 대한 취약성을 해결하기 위해 저순위 적응 기반의 효율적이고 강력한 적대적 적응 방법을 제안한다.
要約
이 논문은 비전-언어 모델(VLM)의 적대적 공격에 대한 취약성을 실험적으로 입증하고, 이를 해결하기 위한 새로운 적대적 적응 방법인 AdvLoRA를 제안한다.
먼저, 다양한 적응 방법을 사용하여 VLM을 적응시킨 결과, 적대적 공격에 대해 약 30.98%의 성능 저하가 발생함을 확인했다. 이는 기존 VLM 및 적응 기법이 의미론적으로 불변하는 특징을 학습하지 못하기 때문이다.
이를 해결하기 위해 AdvLoRA를 제안했다. AdvLoRA는 LoRA 기반의 파라미터 효율적 적응 방법으로, 클러스터링 기반 재매개변수화와 적응적 파라미터 업데이트 전략을 통해 효과적이고 효율적으로 VLM의 적대적 강건성을 향상시킨다.
실험 결과, AdvLoRA는 다른 적응 방법들에 비해 적대적 공격에 대한 강건성이 크게 향상되었으며, 계산 및 저장 비용도 크게 감소했다. 특히 대규모 데이터셋에서 AdvLoRA의 성능이 두드러졌다.
統計
적대적 공격 후 MSCOCO 데이터셋의 성능이 약 30.98% 하락했다.
AdvLoRA는 MSCOCO 데이터셋에서 다른 PEFT 방법보다 12.17% 높은 성능을 보였고, FFT 대비 2.47% 높은 성능을 보였다.
AdvLoRA는 MSR-VTT 데이터셋에서 39.16% 향상된 적대적 강건성을 보였다.
引用
"비전-언어 모델(VLM)은 인공 일반 지능(AGI)을 위한 중요한 기술이다."
"기존 적응 방법들은 VLM의 적대적 공격에 취약할 수 있으며, 이는 심각한 보안 위험을 초래할 수 있다."
"VLM의 크기가 증가함에 따라 기존 적대적 적응 기술은 높은 계산 비용을 초래한다."