핵심 개념
直接從大型語言模型中移除有害知識(安全地遺忘)比主流的基於監督式微調的安全防禦方法更有效地防禦越獄攻擊,因為它可以推廣到未見過的攻擊提示和有害問題。
論文概述
本論文提出了一種名為「安全地遺忘」的新方法,用於防禦針對大型語言模型(LLM)的越獄攻擊。該方法的核心思想是直接從模型中移除有害知識,而不是像傳統方法那樣僅僅訓練模型識別和拒絕有害查詢。
研究背景
大型語言模型(LLM)在各種應用中取得了顯著的成功,但也引發了人們對其安全性的擔憂。越獄攻擊是一種利用精心設計的提示來誘導 LLM 產生有害響應的攻擊方式。現有的安全防禦方法,主要是基於監督式微調(SFT),在應對越獄攻擊方面效果有限,因為攻擊者可以不斷改變提示來繞過防禦。
研究方法
「安全地遺忘」方法採用了三種互補的目標來實現安全防禦:
遺忘有害響應: 通過最小化模型生成有害響應的概率來實現。
學習安全響應: 通過最大化模型拒絕有害查詢的概率來實現。
維持一般性能: 通過在無害查詢上保持模型的一般性能來實現。
為了實現這些目標,該方法使用了三個損失函數:遺忘損失、安全損失和一般損失。遺忘損失用於降低模型生成有害響應的概率,安全損失用於訓練模型生成安全的拒絕響應,而一般損失則用於確保模型在無害查詢上的性能不受影響。
實驗結果
實驗結果表明,「安全地遺忘」方法在防禦越獄攻擊方面非常有效。即使在訓練過程中沒有使用任何越獄提示,該方法也能將攻擊成功率(ASR)降低到接近於零。此外,該方法還表現出很強的泛化能力,能夠成功防禦未見過的攻擊提示和有害問題。
分析
論文分析了「安全地遺忘」方法有效性的原因,認為這主要歸功於以下兩個因素:
有害響應的內在相關性: 儘管不同的越獄查詢可能存在很大差異,但它們對應的有害響應通常非常相似。
模型對有害響應的聚類表示: LLM 會將不同的有害響應聚類到相似的表示空間中,這使得遺忘少數有害響應就能有效地遺忘許多未見過的有害表達。
結論
「安全地遺忘」方法為防禦越獄攻擊提供了一種有前景的解決方案。該方法直接從模型中移除有害知識,而不是僅僅訓練模型識別和拒絕有害查詢,從而實現了更有效的防禦。實驗結果證明了該方法的有效性和泛化能力。
통계
使用僅 20 個原始有害問題進行訓練,安全地遺忘方法將 Vicuna-7B 在未見過的、包含各種複雜越獄提示的有害問題上的攻擊成功率 (ASR) 從 82.6% 降低到 7.7%。
相比之下,Llama2-7B-Chat 使用了約 0.1M 的安全對齊樣本進行微調,即使在額外安全系統提示的幫助下,其 ASR 仍為 21.9%。