이 논문은 신경망 분류기의 그래디언트 기반 해석 기법이 개별 입력 샘플에 대해 설계된 적대적 교란에 취약하다는 것을 보여준다. 이를 해결하기 위해 저자들은 다양한 입력 샘플에 걸쳐 신경망 해석을 효과적으로 변경할 수 있는 보편적 교란을 설계하는 두 가지 방법을 제안한다.
첫 번째 방법은 UPI-Grad라는 그래디언트 기반 최적화 기법을 사용하여 보편적 교란을 찾는 것이다. 두 번째 방법은 UPI-PCA라는 주성분 분석 기반 접근법을 사용하여 보편적 교란의 방향을 찾는 것이다. 이 방법은 그래디언트 기반 교란의 주요 특이 벡터를 계산하는 것을 목표로 한다.
저자들은 표준 이미지 데이터셋에 대한 실험 결과를 통해 제안된 UPI 기법들이 신경망 해석을 효과적으로 변경할 수 있음을 보여준다. 특히 UPI-PCA 기법이 UPI-Grad 기법보다 우수한 일반화 성능을 보인다. 또한 UPI가 그래디언트 기반 해석에 상당한 영향을 미치지만, 분류 성능에는 상대적으로 작은 영향을 미치는 것으로 나타났다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問