Grunnleggende konsepter
本文提出了一種名為 CLEANGEN 的新型解碼策略,用於減輕針對大型語言模型 (LLM) 生成任務的後門攻擊,並通過實驗證明了 CLEANGEN 的有效性、實用性和效率。
論文概述
本論文介紹了一種名為 CLEANGEN 的新型解碼策略,旨在減輕針對大型語言模型 (LLM) 生成任務的後門攻擊。隨著 LLM 在生成任務中展現出卓越的性能,它們被廣泛應用於各種客製化應用程式,例如聊天機器人和虛擬助理。然而,用於訓練或微調這些 LLM 的數據通常是不公開的,這使得攻擊者有機可乘,可以通過污染數據將後門植入模型中。
研究背景
現有的針對 LLM 生成任務的後門攻擊防禦方法研究相對較少。現有防禦方法主要針對文本分類和多選 QA 等特定任務,或者需要重新訓練 LLM 並事先了解攻擊者的目標內容,這限制了它們的廣泛適用性。
CLEANGEN 方法
CLEANGEN 是一種輕量級且有效的解碼策略,與最先進的 LLM 相容。CLEANGEN 背後的核心理念是,與其他 LLM 相比,被植入後門的 LLM 會為代表攻擊者期望內容的標記分配顯著更高的概率。CLEANGEN 利用這種標記概率的差異來識別攻擊者偏愛的可疑標記,並將其替換為由另一個未被同一攻擊者入侵的 LLM(稱為參考模型)生成的標記,從而避免生成攻擊者期望的內容。
實驗結果
論文評估了 CLEANGEN 針對五種最先進的後門攻擊的有效性、實用性和效率:VPI 情感操控、VPI 代碼注入、AutoPoison、多輪聊天後門和單輪聊天後門。實驗結果表明,與五種最先進的基準防禦方法相比,CLEANGEN 在所有五種後門攻擊中均實現了較低的攻擊成功率。此外,部署 CLEANGEN 的 LLM 在處理良性用戶查詢時仍能保持其幫助性,並且只增加了最少的計算開銷。
結論
CLEANGEN 是一種有效的解碼策略,可以減輕針對 LLM 生成任務的後門攻擊。它具有輕量級、與最先進的 LLM 相容、無需重新訓練後門模型、無需事先了解攻擊者目標內容等優點。實驗結果證明了 CLEANGEN 在減輕攻擊成功率、保持模型實用性和效率方面的優勢。
Statistikk
CLEANGEN 在所有五種後門攻擊中均實現了較低的攻擊成功率,優於所有基準防禦方法。
CLEANGEN 的平均 ATGR 為 1.30,表明其效率高,不會造成顯著的延遲。
對於包含觸發器的查詢,CLEANGEN 替換的標記比例通常高於良性查詢,表明其能準確檢測可疑標記。