本文提出了一種新的後門緩解方法,利用未見樣本的激活信息來引導模型權重的編輯,以有效去除後門的影響。該方法分為兩種情況:
已知後門觸發器(BDK)
未知後門觸發器(¬BDK)
實驗結果表明,該方法在不同數據集、模型和後門攻擊下都能有效緩解後門,並且計算效率高,只需少量未見樣本即可完成緩解。此外,在¬BDK情況下,該方法還可用於檢測後門的存在及其目標類別。
На другой язык
из исходного контента
arxiv.org
Ключевые выводы из
by Felix Hsieh,... в arxiv.org 10-01-2024
Дополнительные вопросы
Оглавление
利用激活引導的模型編輯來緩解後門攻擊
Mitigating Backdoor Attacks using Activation-Guided Model Editing
該方法是否可以擴展到其他類型的數據,如文本或音頻?
如何進一步提高模型性能的保留,而不會導致目標類別的大幅下降?
該方法是否可以應用於其他類型的機器學習安全問題,如隱私保護或模型泄露?
Инструменты и ресурсы
Получите точное резюме и ключевые идеи с помощью средства краткого изложения PDF с искусственным интеллектом