이 논문은 이미지 분류 작업에서 확산 모델을 활용하여 적대적 공격에 대한 강건성을 높이는 방법을 제안한다.
먼저, 기존 이미지 분류기들이 적대적 공격에 취약한 문제를 지적한다. 이를 해결하기 위해 확산 모델 기반의 생성 베이지안 분류기(Diffusion Classifier)를 제안한다. 이 분류기는 사전 학습된 확산 모델을 활용하여 베이지안 정리를 통해 입력 이미지의 클래스 확률을 계산한다.
이후 적대적 공격에 대한 강건성을 더욱 높이기 위해 진실 극대화(Truth Maximization) 최적화 기법을 제안한다. 이 기법은 적대적으로 변형된 데이터와 정답 레이블을 활용하여 확산 모델을 최적화함으로써, 적대적 노이즈 하에서도 정확한 분류가 가능하도록 한다.
실험 결과, 제안한 Diffusion Classifier와 TMDC(Truth Maximized Diffusion Classifier)가 기존 신경망 기반 분류기에 비해 강력한 적대적 강건성을 보여줌을 확인했다. 특히 TMDC는 CIFAR-10 데이터셋에서 상태 최고 수준의 적대적 강건성을 달성했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yujie Li,Yan... at arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08273.pdfDeeper Inquiries