核心概念
多語言大型語言模型的安全性訓練容易受到跨語言微調攻擊的影響,只需使用單一語言的惡意數據進行微調,就能破壞模型在所有語言的安全防護。
這篇研究論文探討了多語言大型語言模型 (LLM) 在面對微調攻擊時的脆弱性。研究發現,僅需使用單一語言的少量惡意訓練數據對模型進行微調,就能輕易地移除模型的安全防護,導致模型在所有語言中都容易受到攻擊。
研究發現:
跨語言泛化性:使用單一語言的惡意數據進行微調,會導致多語言 LLM 在其他語言中也無法拒絕有害提示。
語言無關的安全資訊:研究發現,與安全性相關的資訊在模型參數空間中是語言無關的,僅需改變 20% 的權重參數就能破壞所有語言的安全防護。
替代路徑假設:凍結與安全性相關的參數並不能阻止微調攻擊,因為攻擊者可以利用其他參數路徑來攻擊模型。
語言適應後的攻擊:即使對模型進行了新的語言適應,研究提出的攻擊方法仍然有效。
研究方法:
對兩個多語言 LLM (Llama-3.1-8B-Instruct 和 Qwen-2-7B-Instruct) 進行微調攻擊。
使用 Safety Information Localization (SIL) 方法來定位模型參數空間中與安全性相關的資訊。
使用 Shared Information Ratio (SIR) 指標來衡量不同語言之間共享的安全資訊量。
研究結論:
多語言 LLM 的安全性訓練容易受到跨語言微調攻擊的影響。
模型中存在語言無關的安全參數,這些參數是攻擊的主要目標。
凍結安全參數並不能有效地防禦微調攻擊。
語言適應後的模型仍然容易受到攻擊。
研究意義:
揭露了多語言 LLM 的安全漏洞,並為設計更安全的模型提供了參考。
提出了 SIL 方法和 SIR 指標,可用於評估和量化模型的安全性。
研究限制:
只關注一種攻擊方法 (使用惡意數據進行微調)。
語言覆蓋範圍有限。
可解釋性實驗主要關注於理解攻擊方法的有效性。
統計資料
只需改變 20% 的權重參數就能破壞所有語言的安全防護。
使用 SIL 方法,只需 20% 的參數就能讓預先訓練的模型表現出高違規率。