핵심 개념
提出一種新的後門緩解方法,利用未見樣本的激活信息來引導模型權重的編輯,以有效去除後門的影響。
초록
本文提出了一種新的後門緩解方法,利用未見樣本的激活信息來引導模型權重的編輯,以有效去除後門的影響。該方法分為兩種情況:
-
已知後門觸發器(BDK)
- 將未見樣本污染上已知的後門觸發器
- 提取模型在乾淨和污染樣本上的激活信息
- 對模型權重進行編輯,包括取反、歸一化和縮放等操作
- 可選的修復步驟,在乾淨和污染樣本上進行微調,以恢復模型性能
-
未知後門觸發器(¬BDK)
- 使用乾淨的未見樣本
- 在提取激活信息時更新批歸一化層的移動平均參數
- 其他步驟與BDK情況相同
實驗結果表明,該方法在不同數據集、模型和後門攻擊下都能有效緩解後門,並且計算效率高,只需少量未見樣本即可完成緩解。此外,在¬BDK情況下,該方法還可用於檢測後門的存在及其目標類別。
통계
後門攻擊成功率(ASR)降低到0%,乾淨測試準確率(ACC)保持在65.49%左右,目標類別準確率(CTCA)也降低到0%。