本文提出了一種新的後門緩解方法,利用未見樣本的激活信息來引導模型權重的編輯,以有效去除後門的影響。該方法分為兩種情況:
已知後門觸發器(BDK)
未知後門觸發器(¬BDK)
實驗結果表明,該方法在不同數據集、模型和後門攻擊下都能有效緩解後門,並且計算效率高,只需少量未見樣本即可完成緩解。此外,在¬BDK情況下,該方法還可用於檢測後門的存在及其目標類別。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Felix Hsieh,... às arxiv.org 10-01-2024
https://arxiv.org/pdf/2407.07662.pdfPerguntas Mais Profundas