核心概念
메타 학습 기반의 다중 일관성 증류 기법을 통해 알려지지 않은 적대적 공격에 대한 일반화된 강건성을 달성한다.
要約
이 논문은 딥 신경망 모델이 적대적 공격에 매우 취약하다는 문제를 해결하기 위해 메타 불변성 방어(MID) 기법을 제안한다. MID는 메타 학습 프레임워크와 다중 일관성 증류 기법을 결합하여 적대적 공격에 불변한 특징을 학습한다.
구체적으로:
메타 학습 단계에서는 알려진 적대적 공격과 알려지지 않은 적대적 공격을 모방하여 학습을 진행한다. 이를 통해 두 종류의 공격에 모두 강건한 매개변수를 찾아낸다.
다중 일관성 증류 기법을 통해 적대적 특징과 원본 특징의 유사성, 복원된 이미지와 원본 이미지의 유사성, 그리고 분류 결과의 유사성을 동시에 학습한다. 이를 통해 적대적 공격에 불변한 특징을 추출한다.
실험 결과, 제안한 MID 기법은 다양한 벤치마크 데이터셋에서 알려진 공격과 알려지지 않은 공격에 대한 강건성을 모두 향상시킬 수 있음을 보여준다.
統計
적대적 공격은 사람의 눈에는 거의 인지할 수 없지만 딥 신경망 모델의 예측을 완전히 틀리게 만들 수 있다.
기존 방어 기법은 알려진 공격에 대해서만 강건성을 가지며, 알려지지 않은 공격에 대한 일반화된 강건성은 부족하다.
引用
"Why can human beings still accurately predict the identity of the face even with various, unknown expressions?"
"Meta-learning gives model the ability of learning to learn through an adaptive confirmatory learning idea, which also fits our objective to learn a learning pattern adaptive to various attacks."