이 논문은 모델 출력 점수를 활용하여 효율적으로 희소 적대적 예제를 생성하는 새로운 알고리즘 BRUSLEATTACK을 제안한다.
기존 희소 공격 방법은 NP-hard 문제와 비미분 가능한 탐색 공간으로 인해 어려움이 있었다. BRUSLEATTACK은 이를 해결하기 위해 새로운 문제 정식화와 베이지안 프레임워크를 제안한다.
베이지안 프레임워크를 통해 과거 픽셀 조작 정보를 활용하여 영향력 있는 픽셀을 선별하고, 소스 이미지와 합성 컬러 이미지 간 픽셀 차이를 활용하여 효율적인 탐색을 수행한다.
ImageNet 등 다양한 데이터셋과 모델(CNN, Transformer)에 대해 실험한 결과, BRUSLEATTACK이 기존 최신 방법보다 쿼리 효율성과 공격 성공률이 월등히 높음을 보였다. 또한 적대 훈련 모델에 대해서도 강력한 공격 성능을 보였다.
실제 Google Cloud Vision API에 대한 공격 실험을 통해 BRUSLEATTACK의 실용성을 입증하였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問