核心概念
데이터 오염 공격으로부터 신경망을 효과적으로 방어하기 위해 특성 벡터 기반의 새로운 접근법을 제안한다. 이 방법은 다양한 데이터 오염 기법에 대해 강건하며, 최종 모델의 성능을 크게 저하시키지 않는다.
要約
이 논문은 신경망에 대한 데이터 오염 공격과 그에 대한 방어 기법을 다룬다. 데이터 오염 공격은 훈련 데이터를 악의적으로 조작하여 학습된 모델의 성능을 저하시키는 공격 기법이다.
논문에서는 특히 깨끗한 레이블 데이터 오염 공격에 초점을 맞추고 있다. 이 공격은 훈련 데이터의 레이블을 변경하지 않고도 모델의 의사결정 경계를 변화시킬 수 있어 탐지가 어렵다.
논문에서는 이러한 데이터 오염 공격에 대응하기 위해 특성 벡터 기반의 새로운 방어 기법을 제안한다. 이 방법은 배치 정규화 층을 활용하여 데이터의 특성을 효과적으로 포착하고, 이를 통해 깨끗한 데이터와 오염된 데이터를 구분한다.
실험 결과, 제안 방법은 기존 방어 기법에 비해 우수한 성능을 보였다. 다양한 데이터 오염 기법에 대해 강건하며, 최종 모델의 성능 저하도 최소화할 수 있었다.
統計
신경망 모델의 매개변수는 수십억 개에 달할 수 있다.
데이터 오염 공격은 모델의 무결성, 가용성, 프라이버시를 위협할 수 있다.
깨끗한 레이블 데이터 오염 공격은 훈련 데이터의 레이블을 변경하지 않고도 모델의 의사결정 경계를 변화시킬 수 있다.
引用
"The unprecedented availability of training data fueled the rapid development of powerful neural networks in recent years."
"Poisoning attacks manipulate the training dataset by injecting or maliciously altering datapoints, compromising the learned model to achieve a predefined adversarial goal."
"Triggerless clean-label attacks apply a constrained perturbation to a subset of the training set so that the perturbed samples reside closely to a target sample that the attacker wants to misclassify."