이 논문은 신경망 분류기의 그래디언트 기반 해석 기법이 개별 입력 샘플에 대해 설계된 적대적 교란에 취약하다는 것을 보여준다. 이를 해결하기 위해 저자들은 다양한 입력 샘플에 걸쳐 신경망 해석을 효과적으로 변경할 수 있는 보편적 교란을 설계하는 두 가지 방법을 제안한다.
첫 번째 방법은 UPI-Grad라는 그래디언트 기반 최적화 기법을 사용하여 보편적 교란을 찾는 것이다. 두 번째 방법은 UPI-PCA라는 주성분 분석 기반 접근법을 사용하여 보편적 교란의 방향을 찾는 것이다. 이 방법은 그래디언트 기반 교란의 주요 특이 벡터를 계산하는 것을 목표로 한다.
저자들은 표준 이미지 데이터셋에 대한 실험 결과를 통해 제안된 UPI 기법들이 신경망 해석을 효과적으로 변경할 수 있음을 보여준다. 특히 UPI-PCA 기법이 UPI-Grad 기법보다 우수한 일반화 성능을 보인다. 또한 UPI가 그래디언트 기반 해석에 상당한 영향을 미치지만, 분류 성능에는 상대적으로 작은 영향을 미치는 것으로 나타났다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Haniyeh Ehsa... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2212.03095.pdfDeeper Inquiries