이 논문은 전처리 기반 방어 기법의 화이트박스 강건성 저하 문제를 분석하고 이를 해결하기 위한 방법을 제안한다.
전처리 모델 학습에 사용되는 적대적 예제가 전처리 모델과 독립적이라는 점이 강건성 저하의 한 요인으로 분석되었다. 이를 해결하기 위해 전체 모델(전처리 모델 + 타겟 모델)에 대한 적대적 예제를 활용하는 방법을 제안한다.
전처리 모델 자체의 취약성도 강건성 저하의 원인으로 지적되었다. 이를 해결하기 위해 전체 적대적 예제를 활용한 특징 유사도 기반 적대적 위험도를 정의하고, 픽셀 손실을 도입하여 전처리 모델의 고유한 강건성과 교차 모델 전이성을 향상시키는 공동 적대적 학습 기반 방어 기법(JATP)을 제안한다.
실험 결과, JATP 방어 기법은 기존 전처리 방어 기법 대비 화이트박스 강건성을 크게 향상시키고 강건성 저하 문제를 효과적으로 완화할 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Dawei Zhou,N... lúc arxiv.org 03-26-2024
https://arxiv.org/pdf/2106.05453.pdfYêu cầu sâu hơn