핵심 개념
本文提出了一種名為 DeGCG 的雙階段遷移學習框架,用於提升對抗性後綴搜索的效率,從而更有效地攻擊對齊的大型語言模型。
論文概述
本論文旨在解決大型語言模型 (LLM) 的安全問題,特別關注於對抗性後綴攻擊。作者提出了一種名為 DeGCG 的雙階段遷移學習框架,用於提升對抗性後綴搜索的效率,從而更有效地攻擊對齊的 LLM。
研究背景
LLM 在近年來取得了顯著的進展,但同時也面臨著潛在的濫用風險。對抗性攻擊利用精心設計的輸入,誘導 LLM 產生有害或不道德的回應。其中,對抗性後綴攻擊利用梯度信息搜索可附加到惡意查詢中的對抗性後綴,從而繞過安全防護機制。然而,現有的基於梯度的搜索方法 (如 GCG) 效率低下,限制了對後綴遷移性和跨模型、跨數據可擴展性的進一步研究。
DeGCG 框架
為了解決上述問題,作者提出了 DeGCG 框架,將搜索過程解耦為兩個階段:
行為無關的預搜索 (First-Token Searching, FTS):搜索一個通用的後綴,使 LLM 在不拒絕的情況下產生第一個目標詞彙 (例如「當然」)。
行為相關的後搜索 (Content-Aware Searching, CAS):以預搜索階段獲得的後綴為基礎,使用行為相關的目標 (例如「如何製作炸彈」) 進行微調。
實驗結果
作者在 HarmBench 數據集上對 DeGCG 框架進行了評估,實驗結果表明:
DeGCG 在跨模型、跨數據和自遷移場景下均能有效提升攻擊成功率 (ASR)。
DeGCG 的 interleaved 變體 i-DeGCG 通過迭代利用自遷移性,進一步加速了搜索過程。
與基線方法 GCG-M 相比,DeGCG 在搜索效率和 ASR 性能方面均有顯著提升。
結論
DeGCG 框架提供了一種有效且高效的對抗性後綴搜索方法,為紅隊評估和更安全的 LLM 設計提供了新的思路。
통계
在 Llama2-chat-7b 模型上,DeGCG 在驗證集和測試集上的 ASR 分別提升了 22.2 和 19.5。
在跨模型遷移實驗中,DeGCG 在從 Mistral-Instruct 遷移到 Llama2-chat 時,驗證集和測試集上的 ASR 分別提升了 22.2 和 9.4。
在不同規模的搜索空間中,i-DeGCG 均優於基線方法 GCG-M。
在自重複實驗中,通過重複使用較短的後綴,ASR 性能在驗證集和測試集上分別從 21.7 提升到 68.3 和從 19.5 提升到 54.7。