Core Concepts
BRUSLEATTACK은 모델 출력 점수를 관찰하여 효율적으로 희소 적대적 예제를 생성하는 새로운 알고리즘이다. 이는 기존 방법보다 쿼리 효율성과 공격 성공률이 높다.
Abstract
이 논문은 모델 출력 점수를 활용하여 효율적으로 희소 적대적 예제를 생성하는 새로운 알고리즘 BRUSLEATTACK을 제안한다.
기존 희소 공격 방법은 NP-hard 문제와 비미분 가능한 탐색 공간으로 인해 어려움이 있었다. BRUSLEATTACK은 이를 해결하기 위해 새로운 문제 정식화와 베이지안 프레임워크를 제안한다.
베이지안 프레임워크를 통해 과거 픽셀 조작 정보를 활용하여 영향력 있는 픽셀을 선별하고, 소스 이미지와 합성 컬러 이미지 간 픽셀 차이를 활용하여 효율적인 탐색을 수행한다.
ImageNet 등 다양한 데이터셋과 모델(CNN, Transformer)에 대해 실험한 결과, BRUSLEATTACK이 기존 최신 방법보다 쿼리 효율성과 공격 성공률이 월등히 높음을 보였다. 또한 적대 훈련 모델에 대해서도 강력한 공격 성능을 보였다.
실제 Google Cloud Vision API에 대한 공격 실험을 통해 BRUSLEATTACK의 실용성을 입증하였다.
Stats
0.4% 스파스 수준에서 BRUSLEATTACK은 SPARSE-RS 대비 약 10% 높은 공격 성공률을 달성했다.
1.0% 스파스 수준에서 BRUSLEATTACK은 SPARSE-RS 대비 약 10% 높은 공격 성공률을 달성했다.
5,000쿼리 예산으로 BRUSLEATTACK은 l2-AT 모델의 정확도를 66.4%까지 낮출 수 있었다.
5,000쿼리 예산으로 BRUSLEATTACK은 Google Cloud Vision API에 대해 모든 이미지에서 성공적인 공격을 수행할 수 있었다.
Quotes
"BRUSLEATTACK은 모델 출력 점수를 활용하여 효율적으로 희소 적대적 예제를 생성하는 새로운 알고리즘이다."
"BRUSLEATTACK은 기존 최신 방법보다 쿼리 효율성과 공격 성공률이 월등히 높다."
"BRUSLEATTACK은 적대 훈련 모델에 대해서도 강력한 공격 성능을 보였다."