Centrala begrepp
본 논문에서는 딥 러닝 모델의 취약점인 적대적 예제의 전이성을 향상시키기 위해, 이미지의 중요 영역 정보를 활용하고 가중치 기반 특징 드롭 메커니즘을 통해 딥러닝 모델의 출력 분포를 부드럽게 만드는 새로운 프레임워크를 제안합니다.
Sammanfattning
SWFD: 적대적 예제의 표적 전이성 향상
본 연구 논문에서는 딥 러닝 모델의 취약점인 적대적 예제의 전이성을 향상시키기 위한 새로운 프레임워크인 SWFD (Salient region & Weighted Feature Drop)를 제안합니다.
딥 러닝 모델은 입력 데이터에 미세한 변경을 가하여 오분류를 유도하는 적대적 예제에 취약합니다. 특히, 대체 모델에서 생성된 적대적 예제를 사용하여 알 수 없는 블랙박스 모델을 공격하는 전이성 기반 공격은 실제 애플리케이션에 큰 위협이 됩니다. 기존 연구들은 전이성을 향상시키기 위해 다양한 방법을 제시했지만, 표적 블랙박스 시나리오에서 이러한 공격의 성공률은 대체 모델에 대한 과적합 경향으로 인해 제한적입니다.
본 논문에서는 적대적 예제의 표적 전이성을 향상시키기 위해 SWFD라는 새로운 프레임워크를 제안합니다.
1. Salient Region (돌출 영역)
높은 전이성을 가진 예제는 딥 레이어 출력에서 더 부드러운 분포를 보인다는 관찰을 바탕으로, 이미지의 중요 영역 정보를 활용하여 보조 이미지를 생성합니다. 이를 통해 적대적 예제의 특징이 모델에 관계없이 대상 카테고리로 전이되도록 유도합니다.
2. Weighted Feature Drop (가중치 특징 드롭)
과적합 문제를 해결하기 위해 가중치 특징 드롭 메커니즘을 제안합니다. 이 메커니즘은 정규 분포에 따라 조정된 가중치에 따라 활성화 값을 변조하여 적대적 예제 생성 시 과적합 문제를 효과적으로 해결합니다. 즉, 높은 값을 가진 특징을 의도적으로 삭제하여 과적합을 완화하고, 딥 레이어 출력을 부드럽게 만들어 전이성을 향상시킵니다.