大型語言模型容易受到對抗性攻擊,導致產生有害內容。本文發現,這些攻擊都共享一個共同機制,就是消除模型中的「拒絕特徵」。基於此發現,我們提出了「拒絕特徵對抗性訓練」(ReFAT)方法,有效提升模型對各種攻擊的鲁棒性,同時保持模型的一般能力。


coremsg

大型語言模型的安全防護-利用拒絕特徵對抗性訓練


大型語言模型的安全防護：利用拒絕特徵對抗性訓練



本文提出了一種名為MoJE的新型防護機制架構,能夠有效偵測和中和大型語言模型中的提示攻擊,同時保持低計算開銷。



大型語言模型的防護機制：專家混合、簡單表格分類器對抗提示攻擊