本文提出了一種新的後門緩解方法,利用未見樣本的激活信息來引導模型權重的編輯,以有效去除後門的影響。該方法分為兩種情況:
已知後門觸發器(BDK)
未知後門觸發器(¬BDK)
實驗結果表明,該方法在不同數據集、模型和後門攻擊下都能有效緩解後門,並且計算效率高,只需少量未見樣本即可完成緩解。此外,在¬BDK情況下,該方法還可用於檢測後門的存在及其目標類別。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Felix Hsieh,... klokken arxiv.org 10-01-2024
https://arxiv.org/pdf/2407.07662.pdfDypere Spørsmål