이 논문은 신경망에 대한 데이터 오염 공격과 그에 대한 방어 기법을 다룬다. 데이터 오염 공격은 훈련 데이터를 악의적으로 조작하여 학습된 모델의 성능을 저하시키는 공격 기법이다.
논문에서는 특히 깨끗한 레이블 데이터 오염 공격에 초점을 맞추고 있다. 이 공격은 훈련 데이터의 레이블을 변경하지 않고도 모델의 의사결정 경계를 변화시킬 수 있어 탐지가 어렵다.
논문에서는 이러한 데이터 오염 공격에 대응하기 위해 특성 벡터 기반의 새로운 방어 기법을 제안한다. 이 방법은 배치 정규화 층을 활용하여 데이터의 특성을 효과적으로 포착하고, 이를 통해 깨끗한 데이터와 오염된 데이터를 구분한다.
실험 결과, 제안 방법은 기존 방어 기법에 비해 우수한 성능을 보였다. 다양한 데이터 오염 기법에 대해 강건하며, 최종 모델의 성능 저하도 최소화할 수 있었다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Fabio De Gas... kl. arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13523.pdfDybere Forespørgsler