Основные понятия
훈련 이미지를 변경하지 않고도 훈련 레이블을 조작하여 딥러닝 모델에 백도어를 삽입할 수 있다.
Аннотация
이 논문은 훈련 이미지를 변경하지 않고도 훈련 레이블을 조작하여 딥러닝 모델에 백도어를 삽입할 수 있는 새로운 공격 기법을 제안한다.
- 공격자는 먼저 훈련 이미지를 두 부분으로 나누는 트리거 특징을 찾는다.
- 그 다음 트리거 특징이 있는 이미지의 레이블을 백도어 클래스로 변경한다.
- 이렇게 변경된 훈련 데이터로 모델을 학습하면 백도어가 삽입된다.
- 추론 단계에서 공격자는 트리거 특징이 있는 이미지를 입력하거나 깨끗한 이미지를 약간 변형하여 백도어를 활성화할 수 있다.
- 실험 결과, 제안한 공격은 다양한 데이터셋과 모델에서 효과적이며 은밀하다는 것을 보여준다.
Статистика
훈련 데이터셋의 크기는 60,000개이다.
테스트 데이터셋의 크기는 10,000개이다.
백도어 클래스는 6이다.
레이블 변조 비율은 5%이다.
Цитаты
"훈련 이미지를 변경하지 않고도 훈련 레이블을 조작하여 딥러닝 모델에 백도어를 삽입할 수 있다."
"제안한 공격은 다양한 데이터셋과 모델에서 효과적이며 은밀하다."