Główne pojęcia
大型語言模型 (LLM) 容易受到有害微調攻擊,這些攻擊可以消除安全訓練並導致有害的文本生成。本文提出了一種名為「免疫」的框架,為抵禦此類攻擊提供了必要的條件和指導方針,強調了抵抗、穩定性、泛化能力和可訓練性。
Streszczenie
論文摘要
本研究論文探討了大型語言模型 (LLM) 的安全問題,特別關注「有害微調攻擊」(HFTA)。HFTA 指的是攻擊者利用微調技術,移除 LLM 原有的安全防護措施,並訓練其生成有害內容的行為。
論文首先分析了 HFTA 的威脅模型,指出攻擊者利用有限的計算資源,即可在有害數據集上微調 LLM,使其產生惡意輸出。接著,論文提出了「免疫」的概念,作為評估 LLM 防禦 HFTA 能力的框架。
「免疫」框架包含四個必要條件:
抵抗性:
指 LLM 抵禦有害訓練的能力。強抵抗性意味著模型在任何訓練步驟下,都不會生成超過預設有害閾值的文本。弱抵抗性則要求攻擊者需要付出極大的訓練成本,才能使模型突破安全防線。
穩定性:
確保 LLM 在免疫後,仍能在無害任務上維持與原始模型相當的性能,同時不會降低其安全性或增加遭受其他攻擊的風險。
泛化能力:
考量到防禦者無法預知攻擊者使用的所有樣本,免疫方法應具備泛化能力,能夠抵禦來自相同有害領域或不同有害領域的攻擊。
可訓練性:
指 LLM 在免疫後,仍能在無害數據集上進行微調,並保持與原始模型相似的學習效率。
論文接著針對未來研究方向提出具體建議,包括:
- 建立具有理論保證的防禦方法,例如推導出可降低有害訓練轉移概率的損失函數。
- 建立多元且經過驗證的有害數據集,用於模擬真實的 HFTA。
- 制定全面的攻擊強度指標,例如學習率、樣本數量、訓練周期等。
- 使用領域特定的指標來評估攻擊成功率,並設定合理的防禦門檻。
- 採用標準 LLM 評測基準來評估模型穩定性,並確保模型在其他安全指標上不受影響。
- 鼓勵研究者設計適應性攻擊,以測試防禦方法的魯棒性。
- 透過樣本效率和跨領域泛化能力的測試,評估防禦方法的泛化能力。
- 選擇 LLM 在未經訓練時表現不佳的任務,來評估模型的可訓練性。
最後,論文強調了 HFTA 防禦研究的重要性,並呼籲社群共同努力,開發更安全的 LLM 系統。
Statystyki
搜尋 Huggingface 平台上帶有 "uncensored", "unfiltered", "lewd", "NSFW", "evil" 和 "toxic" 等關鍵字的 LLM,發現大量模型被有意訓練用於潛在有害目的。
其中,「uncensored」模型的搜尋結果最多,達到 267 個,其次是「toxic」模型(43 個)和「evil」模型(21 個)。
這些模型的訓練方法包括 DPO、LoRA、監督式微調等,並使用來自各種來源的有害數據集。
研究發現,一些原本使用安全訓練的模型,例如 Xwin-LM 和 Phi-2,也被微調成具有潛在危害性的版本。
Cytaty
"No matter how safe a model is at inference time, if its safety guards can easily be removed the model is fundamentally unsafe."
"These defences are necessary due to the following: Vulnerability Argument No matter how safe a model is at inference time, if its safety guards can easily be removed the model is fundamentally unsafe."
"While developing immunized models could provide much safer open weight release scenarios, the collection of datasets to immunize these models could present a dual-use risk if they are shared publicly especially if they are used to demonstrate successful attacks on undefended models with openly available code which bad actors can subsequently copy and use."