Core Concepts
학습 불가능 예제의 영향을 효과적으로 제거하기 위해 율 제한 변분 자동 인코더를 활용한 새로운 정화 방법을 제안한다.
Abstract
이 논문은 학습 불가능 예제(Unlearnable Examples, UEs)에 대한 새로운 정화 방법을 제안한다. UEs는 정확하게 라벨링된 학습 데이터에 미묘한 변화를 가해 모델의 테스트 성능을 크게 저하시키는 공격이다.
저자들은 먼저 율 제한 변분 자동 인코더(VAE)가 UEs의 변화를 효과적으로 제거할 수 있음을 발견했다. 이에 대한 이론적 분석을 제공한다. 이를 바탕으로 학습 가능한 클래스별 임베딩을 활용해 변화를 분리하는 D-VAE 모델을 제안했다.
D-VAE를 활용한 2단계 정화 프레임워크를 제안했다. 1단계에서는 변화를 대략적으로 제거하고, 2단계에서는 정제된 결과를 생성한다. 이를 통해 CIFAR-10, CIFAR-100, ImageNet-subset 데이터셋에서 기존 최신 방법 대비 큰 성능 향상을 달성했다.
Stats
CIFAR-10 데이터셋에서 기존 최고 성능 84%에서 90%로 향상되었다.
ImageNet-subset 데이터셋에서 기존 대비 4% 성능 하락에 그쳤다.
Quotes
"VAEs are significantly more effective at eliminating perturbations than JPEG compression, when achieving similar levels of reconstruction quality."
"Perturbations which create strong attacks tend to have a larger inter-class distance and a smaller intra-class variance."
"The estimated ˆP is constrained to have a smaller r, making it less predictive for classification."