核心概念
전처리 모델의 고유한 강건성을 향상시키기 위해 특징 공간에서 생성된 전체 적대적 예제를 활용하고, 교차 모델 전이성을 높이기 위해 픽셀 손실을 도입하는 공동 적대적 학습 기반 전처리 방어 기법을 제안한다.
摘要
이 논문은 전처리 기반 방어 기법의 화이트박스 강건성 저하 문제를 분석하고 이를 해결하기 위한 방법을 제안한다.
-
전처리 모델 학습에 사용되는 적대적 예제가 전처리 모델과 독립적이라는 점이 강건성 저하의 한 요인으로 분석되었다. 이를 해결하기 위해 전체 모델(전처리 모델 + 타겟 모델)에 대한 적대적 예제를 활용하는 방법을 제안한다.
-
전처리 모델 자체의 취약성도 강건성 저하의 원인으로 지적되었다. 이를 해결하기 위해 전체 적대적 예제를 활용한 특징 유사도 기반 적대적 위험도를 정의하고, 픽셀 손실을 도입하여 전처리 모델의 고유한 강건성과 교차 모델 전이성을 향상시키는 공동 적대적 학습 기반 방어 기법(JATP)을 제안한다.
-
실험 결과, JATP 방어 기법은 기존 전처리 방어 기법 대비 화이트박스 강건성을 크게 향상시키고 강건성 저하 문제를 효과적으로 완화할 수 있음을 보여준다.
統計資料
적대적 예제와 자연 예제 간 L1 거리는 평균 7.51이지만, 전처리된 예제와 자연 예제 간 L1 거리는 평균 18.68로 더 크다.
전체 모델에 대한 적대적 예제를 활용하면 화이트박스 강건성이 크게 향상된다.
引述
"A potential cause of this negative effect is that adversarial training examples are static and independent to the pre-processing model."
"An attacker can mislead the pre-processing model to generate an output with respect to wrong class by disrupting the pre-processed example as much as possible."