이 논문은 딥러닝 모델의 백도어 공격을 효과적으로 방어하기 위한 새로운 접근법을 제안한다. 기존의 트리거 역공학 기반 방어 기법은 모델의 백도어 트리거를 추정하고 재구성하여 공격을 탐지하는 방식이었다. 그러나 저자들은 이러한 방식의 설계 결함을 분석하고, 분류 신뢰도를 조절하여 이를 보완하는 보상 모델을 제안한다.
구체적으로, 저자들은 트리거 역공학 기반 방어 기법의 목적 함수가 분류 항과 정규화 항으로 구성된다는 것을 밝혀냈다. 기존 백도어 공격은 주로 정규화 항을 약화시키는 데 초점을 맞추었지만, 저자들은 분류 항을 조절하여 정규화 항의 변화를 보상할 수 있다는 새로운 관점을 제시한다.
이를 위해 저자들은 보상 모델을 제안하여 정규화 항 변화에 대한 하한을 계산하고, 레이블 스무딩을 활용한 LSP(Label Smoothing Poisoning) 프레임워크를 개발했다. LSP 프레임워크는 기존 백도어 공격 기법과 호환되어 트리거 역공학 기반 방어 기법을 효과적으로 우회할 수 있다.
실험 결과, LSP 프레임워크는 Neural Cleanse, ABS, ExRay와 같은 최신 트리거 역공학 기반 방어 기법을 효과적으로 무력화할 수 있음을 보여준다. 이는 백도어 공격 및 방어 기법 개발에 새로운 관점을 제시할 것으로 기대된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Beichen Li,Y... at arxiv.org 04-22-2024
https://arxiv.org/pdf/2404.12852.pdfDeeper Inquiries