本文首先通過分析發現,各種對抗性攻擊都共享一個共同機制,就是消除模型中的「拒絕特徵」。拒絕特徵是定義為有害和無害輸入指令在模型隱藏層表示之間的差異,可以作為預測輸入有害性的線性指標。
作者提出了「拒絕特徵對抗性訓練」(ReFAT)方法,在訓練過程中動態模擬拒絕特徵消除的效果,迫使模型學會即使在拒絕特徵被消除的情況下,也能夠更加穩健地判斷輸入的安全性。
實驗結果顯示,ReFAT顯著提升了三種主流大型語言模型對各種攻擊的鲁棒性,包括梯度搜索攻擊、基於另一個模型的攻擊,以及基因算法攻擊等。同時,ReFAT對模型的一般能力也幾乎沒有負面影響。與現有的對抗性訓練方法相比,ReFAT的計算效率也高出數倍。
總的來說,本文從機制層面深入理解了大型語言模型的對抗性弱點,並提出了一種高效的防禦方法,為提升這類模型的安全性和可靠性做出了重要貢獻。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Lei Yu, Virg... alle arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20089.pdfDomande più approfondite