이 논문은 적대적 정화(Adversarial Purification, AP)를 위한 강건한 확산 모델(Robust Diffusion Model, AGDM)을 제안한다. 기존 AP 방법들은 사전 학습된 생성 모델을 활용하지만, 이 모델 자체가 적대적 공격에 취약하다는 문제가 있었다. 이를 해결하기 위해 저자들은 강건한 역 과정을 제안한다.
구체적으로, 저자들은 적대적 예제와 정상 예제 간의 거리를 최소화하는 새로운 손실 함수를 제안하여 강건한 분류기 가이던스를 학습한다. 이 가이던스를 활용하여 역 과정을 수행하면, 의미 정보를 보존하면서도 적대적 예제를 효과적으로 정화할 수 있다.
실험 결과, 제안 방법은 기존 AP 및 적대적 훈련 방법 대비 우수한 성능을 보였다. 특히 알려지지 않은 공격에 대해서도 강건한 일반화 능력을 보였다. 또한 정확도-강건성 간 trade-off 문제를 완화할 수 있음을 확인하였다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Guang Lin,Ze... um arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16067.pdfTiefere Fragen