核心概念
大型語言模型容易受到對抗性攻擊,導致產生有害內容。本文發現,這些攻擊都共享一個共同機制,就是消除模型中的「拒絕特徵」。基於此發現,我們提出了「拒絕特徵對抗性訓練」(ReFAT)方法,有效提升模型對各種攻擊的鲁棒性,同時保持模型的一般能力。
摘要
本文首先通過分析發現,各種對抗性攻擊都共享一個共同機制,就是消除模型中的「拒絕特徵」。拒絕特徵是定義為有害和無害輸入指令在模型隱藏層表示之間的差異,可以作為預測輸入有害性的線性指標。
作者提出了「拒絕特徵對抗性訓練」(ReFAT)方法,在訓練過程中動態模擬拒絕特徵消除的效果,迫使模型學會即使在拒絕特徵被消除的情況下,也能夠更加穩健地判斷輸入的安全性。
實驗結果顯示,ReFAT顯著提升了三種主流大型語言模型對各種攻擊的鲁棒性,包括梯度搜索攻擊、基於另一個模型的攻擊,以及基因算法攻擊等。同時,ReFAT對模型的一般能力也幾乎沒有負面影響。與現有的對抗性訓練方法相比,ReFAT的計算效率也高出數倍。
總的來說,本文從機制層面深入理解了大型語言模型的對抗性弱點,並提出了一種高效的防禦方法,為提升這類模型的安全性和可靠性做出了重要貢獻。
統計資料
大型語言模型容易受到各種對抗性攻擊,導致產生有害內容。
這些攻擊都共享一個共同機制,就是消除模型中的「拒絕特徵」。
拒絕特徵是有害和無害輸入指令在模型隱藏層表示之間的差異,可以作為預測輸入有害性的線性指標。
「拒絕特徵對抗性訓練」(ReFAT)方法可以顯著提升模型對各種攻擊的鲁棒性,同時保持模型的一般能力。
與現有的對抗性訓練方法相比,ReFAT的計算效率高出數倍。
引述
"大型語言模型容易受到各種對抗性攻擊,導致產生有害內容。"
"這些攻擊都共享一個共同機制,就是消除模型中的「拒絕特徵」。"
"拒絕特徵是有害和無害輸入指令在模型隱藏層表示之間的差異,可以作為預測輸入有害性的線性指標。"
"「拒絕特徵對抗性訓練」(ReFAT)方法可以顯著提升模型對各種攻擊的鲁棒性,同時保持模型的一般能力。"
"與現有的對抗性訓練方法相比,ReFAT的計算效率高出數倍。"