大型語言模型容易受到對抗性攻擊,導致產生有害內容。本文發現,這些攻擊都共享一個共同機制,就是消除模型中的「拒絕特徵」。基於此發現,我們提出了「拒絕特徵對抗性訓練」(ReFAT)方法,有效提升模型對各種攻擊的鲁棒性,同時保持模型的一般能力。
本文提出了一種名為MoJE的新型防護機制架構,能夠有效偵測和中和大型語言模型中的提示攻擊,同時保持低計算開銷。