Główne pojęcia
사전 학습된 확산 모델 자체가 적대적 공격에 취약하다는 점을 고려하여, 강건한 역 과정을 통해 의미 정보를 보존하면서도 적대적 예제를 효과적으로 정화할 수 있는 새로운 방법을 제안한다.
Streszczenie
이 논문은 적대적 정화(Adversarial Purification, AP)를 위한 강건한 확산 모델(Robust Diffusion Model, AGDM)을 제안한다. 기존 AP 방법들은 사전 학습된 생성 모델을 활용하지만, 이 모델 자체가 적대적 공격에 취약하다는 문제가 있었다. 이를 해결하기 위해 저자들은 강건한 역 과정을 제안한다.
구체적으로, 저자들은 적대적 예제와 정상 예제 간의 거리를 최소화하는 새로운 손실 함수를 제안하여 강건한 분류기 가이던스를 학습한다. 이 가이던스를 활용하여 역 과정을 수행하면, 의미 정보를 보존하면서도 적대적 예제를 효과적으로 정화할 수 있다.
실험 결과, 제안 방법은 기존 AP 및 적대적 훈련 방법 대비 우수한 성능을 보였다. 특히 알려지지 않은 공격에 대해서도 강건한 일반화 능력을 보였다. 또한 정확도-강건성 간 trade-off 문제를 완화할 수 있음을 확인하였다.
Statystyki
적대적 예제와 정상 예제 간 거리를 최소화하는 새로운 손실 함수를 제안하였다.
제안 방법은 기존 AP 및 적대적 훈련 방법 대비 AutoAttack l∞에서 8.1%, l2에서 8.7%, StAdv non-lp에서 4.4% 더 높은 강건 정확도를 달성하였다.
PGD+EOT 공격에 대해 l∞에서 8.24%, l2에서 1.96% 더 높은 강건 정확도를 달성하였다.
Cytaty
"사전 학습된 확산 모델 자체가 적대적 공격에 취약하다는 점을 고려하여, 강건한 역 과정을 통해 의미 정보를 보존하면서도 적대적 예제를 효과적으로 정화할 수 있는 새로운 방법을 제안한다."
"제안 방법은 기존 AP 및 적대적 훈련 방법 대비 AutoAttack l∞에서 8.1%, l2에서 8.7%, StAdv non-lp에서 4.4% 더 높은 강건 정확도를 달성하였다."
"PGD+EOT 공격에 대해 l∞에서 8.24%, l2에서 1.96% 더 높은 강건 정확도를 달성하였다."