核心概念
本文提出了一種名為 CROW 的新型防禦機制,透過內部一致性正規化來消除大型語言模型中的後門攻擊,無需乾淨參考模型或預先觸發知識,即可有效減輕各種後門攻擊的影響。
論文資訊
Nay Myat Min, Long H. Pham, Yige Li, Jun Sun. (2024). CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization. arXiv preprint arXiv:2411.12768.
研究目標
本研究旨在解決大型語言模型 (LLM) 中後門攻擊的威脅,並提出一個名為內部一致性正規化 (CROW) 的新型防禦機制,以減輕這些攻擊的影響。
方法
CROW 利用轉換器模型的固有特性,即乾淨模型中,跨連續層的隱藏狀態表現出一致的轉變。 相反,當存在觸發器時,後門模型會偏離這種一致性。CROW 使用餘弦相似度量化內部一致性,並透過對抗性擾動模擬類似後門的破壞,並應用正規化來強制執行內部一致性,使模型能夠學習抵抗操縱的穩定隱藏狀態轉變。
主要發現
CROW 在各種 LLM 架構(包括 Llama-2、CodeLlama 和 Mistral)中,針對六種後門攻擊策略(BadNets、虛擬提示注入、Sleeper、多重觸發後門、複合觸發後門和程式碼注入攻擊)進行評估,並在所有情況下都顯著降低了攻擊成功率 (ASR)。
CROW 在減輕後門攻擊的同時,還保持了模型的生成能力和實用性,在 MT-Bench 評測中取得了與未受攻擊模型相當或更高的分數。
CROW 在計算上是高效的,只需使用少量乾淨數據即可在單個 A100 GPU 上在 4 分鐘內完成所需的微調。
主要結論
CROW 是一種有效且實用的 LLM 後門防禦方法,透過強制執行內部一致性來解決 LLM 中後門漏洞的根本原因,為保護生成模型提供了強大的防禦機制。
研究意義
本研究強調了內部一致性正規化在保護 LLM 方面的有效性,並為未來在保護生成模型方面的研究奠定了基礎。
局限性和未來研究方向
未來工作可以進一步探索 CROW 在其他類型的後門攻擊(例如,權重中毒)和更複雜的 LLM 架構中的有效性。
研究 CROW 如何與其他防禦機制相結合以提供更全面的保護也很重要。
統計資料
使用 500 個樣本的毒化數據集,佔 52,000 個樣本的 Alpaca 數據集的不到 1%。
在大多數情況下,CROW 將 ASR 降低到 5% 以下。
在使用 Llama-2-7B 的情感操控中,CROW 將 ASR 從 65% 降低到 0.53%。
對於 Llama-2-13B 上的 CTBA 攻擊,ASR 從 57.53%(修剪)和 31.21%(量化)下降到 2.38%(CROW)。
在 Llama-2-7B 的目標拒絕中,CROW 在 BadNets 上的 ASR 為 19.63%,在 Llama-2-13B 上的 ASR 為 25%。
將 α 增加 1 後,CROW 成功將 ASR 降低到 3% 以下。
在 BadNets 下使用 Llama-2-7B 的情感操控中,CROW 的得分為 3.80,超過了未防禦模型的 2.72。
在 BadNets 下使用 Llama-2-7B 的情感操控中,CROW 的得分為 3.80,而修剪和量化的得分分別為 2.51 和 2.33。
在 Mistral-7B 的目標拒絕任務中,CROW 的平均 MT-Bench 得分為 4.54,接近未防禦模型的 5.18。
CodeLlama-7B-Instruct 的 ASR 為 0.87%,CodeLlama-13B-Instruct 的 ASR 為 2.99%。
使用 CodeLlama-13B-Instruct 時,CROW 的得分為 4.53,接近微調模型的最高得分 4.83。
Llama-2-7B-Chat 在 2.20 分鐘內完成,Llama-2-13B-Chat 在 3.35 分鐘內完成,Mistral-7B-Instruct 在 2.39 分鐘內完成,CodeLlama-7B-Instruct 在 2.24 分鐘內完成,CodeLlama-13B-Instruct 在 3.78 分鐘內完成。