Core Concepts
사브레 방어 기법에는 심각한 평가 오류가 존재하며, 단 1줄의 코드 수정으로 방어 기법이 완전히 무력화된다.
Abstract
이 논문은 사브레 방어 기법에 대한 비판적 분석을 제공한다. 저자들은 사브레 방어 기법의 평가에 다음과 같은 심각한 문제점이 있음을 지적한다:
수학적으로 불가능한 수준의 강건성 주장
공격 하에서 모델의 정확도가 오히려 향상되는 현상
표준 권장 모범 사례를 따르지 않는 평가 방법
저자들은 사브레 방어 기법의 평가 코드에 있는 단 1줄의 버그를 수정하여 MNIST 데이터셋에서 방어 정확도를 0%까지 낮출 수 있음을 보여준다. 이에 대응하여 저자들이 새로운 방어 요소를 추가했지만, 이 역시 또 다른 버그를 포함하고 있어 추가적인 코드 수정으로 다시 방어 기법을 무력화할 수 있다.
저자들은 이러한 결과를 통해 적대적 예제 방어 기법의 평가에 있어 엄격한 검증이 필요함을 강조한다. 특히 적응형 공격에 대한 평가가 누락되어 있는 점을 지적하며, 이는 방어 기법의 실제 강건성을 평가하는 데 필수적이라고 주장한다.
Stats
MNIST 데이터셋에서 단 1줄의 코드 수정으로 방어 정확도를 0%까지 낮출 수 있었다.
CIFAR-10 데이터셋에서도 코드 수정을 통해 방어 정확도를 0%까지 낮출 수 있었다.
저자들이 추가한 새로운 방어 요소에도 버그가 존재하여, 추가적인 코드 수정으로 다시 방어 기법을 무력화할 수 있었다.
Quotes
"Sabre는 적응형 공격에 대해서도 현재 공격에 대한 것만큼 강건하다."
"Sabre는 끝-끝 미분 가능하여 기울기 마스킹을 피할 수 있다."
"Sabre는 기울기 마스킹이 없음을 검증했다."