核心概念
신경망 모델의 매개변수 학습 과정에서 발생하는 취약점을 분석하고, 설명 인식 백도어 공격에 대한 효과적인 방어 기법을 제안한다.
摘要
이 연구는 신경망 모델의 매개변수 학습 과정에서 발생하는 취약점을 분석하고, 이를 바탕으로 설명 인식 백도어 공격에 대한 효과적인 방어 기법을 제안한다.
- 신경망 모델의 매개변수 학습 과정에서 발생하는 취약점 분석:
- 배치 정규화(Batch Normalization) 레이어의 학습 매개변수가 공격에 취약한 것을 확인
- 배치 정규화 레이어의 학습 매개변수 제거 또는 비학습 설정만으로는 공격에 대한 방어가 불가능
- 채널 단위 특징 정규화(Channel-wise Feature Normalization, CFN) 방어 기법 제안:
- 배치 정규화 레이어의 학습 매개변수 대신 CFN을 사용하여 공격에 대한 방어 가능
- 공격 성공률(ASR)을 약 99% 감소시키고, 원본 설명과 방어된 설명 간 평균 제곱 오차(MSE)를 91% 감소시킴
- 다양한 공격 기법(Simple Fooling, Red Herring, Full Disguise)에 대한 실험 결과:
- CFN 방어 기법이 세 가지 공격 기법에 모두 효과적으로 대응
- CIFAR10 및 GTSRB 데이터셋에서 검증
统计
공격 후 원본 모델과 방어된 모델의 설명 간 평균 제곱 오차(MSE)가 약 0.03으로 매우 낮음
공격 성공률(ASR)이 약 0.01로 매우 낮음
引用
"Explainable AI (XAI) methods can be tricked by adversarial attacks that change the input to mislead explanations, yet keep the model test accuracy consistent."
"Batch Normalization (BN) effectively mitigates fundamental weight alterations in models during the fine-tuning phase of attacks."
"The learning parameters inherent to Batch Normalization (BN) function as facilitators for explanation-aware backdoor attacks."