本文提出了一種新的後門緩解方法,利用未見樣本的激活信息來引導模型權重的編輯,以有效去除後門的影響。該方法分為兩種情況:
已知後門觸發器(BDK)
未知後門觸發器(¬BDK)
實驗結果表明,該方法在不同數據集、模型和後門攻擊下都能有效緩解後門,並且計算效率高,只需少量未見樣本即可完成緩解。此外,在¬BDK情況下,該方法還可用於檢測後門的存在及其目標類別。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies