核心概念
本文揭露了一種名為 SequentialBreak 的新型攻擊方法,該方法利用惡意提示嵌入良性提示序列中,從而繞過大型語言模型的安全防護措施,使其產生有害內容。
這篇研究論文揭露了一種名為 SequentialBreak 的新型攻擊手法,該手法主要針對大型語言模型 (LLM) 的安全漏洞進行攻擊。LLM 被廣泛應用於各種領域,但其潛在的風險也隨之增加,例如可能被利用產生有害內容。
研究動機
此攻擊的設計是基於大型語言模型 (LLM) 的內在特性及其對內容的順序處理方式。了解 LLM 的架構和行為模式,有助於我們深入了解為何某些攻擊策略特別有效。以下幾個關鍵因素促成了這些攻擊的有效性:
**順序內容處理:**LLM 以順序方式處理輸入內容,並根據先前出現的內容來解釋每個詞彙或片段。這種特性既是優勢也是弱點。攻擊者可以透過精心設計的內容序列,引導 LLM 產生預期的輸出,將有害提示嵌入看似無害的上下文中。
**利用 LLM 生成內容:**使用一個 LLM 為另一個 LLM(目標)生成模板或內容,是利用了模型本身的優勢。透過生成看似良性或隱藏在可接受格式中的序列,攻擊者可以有效地掩蓋有害內容。
**嵌套和分層提示:**這些攻擊的另一個關鍵要素是使用嵌套提示和分層內容。透過將有害提示嵌入更廣泛、看似無害的結構中,攻擊者可以利用 LLM 處理分層內容的傾向,先處理外層,然後再深入嵌套的有害內容。
**自動化和基於規則的格式化:**使用基於規則的系統(如正則表達式 (regex))或甚至另一個 LLM來自動化提示格式化,進一步增強了攻擊的有效性。自動化格式化確保了有害提示始終如一地無縫整合到所選模板中,從而最大程度地降低了被 LLM 安全防護措施檢測到的風險。
**泛化性和適應性:**選擇這種攻擊設計背後的動機還在於它的適應性。雖然提供的示例側重於特定場景(例如,問題庫、對話完成、遊戲環境),但其基本方法可以推廣到其他環境中。
研究方法
該攻擊方法涉及使用大型語言模型 (LLM) 將有害內容嵌入看似無害的上下文中,並自動化攻擊過程以繞過安全措施。其工作流程採用順序方法,適用於各種場景,確保了無縫的攻擊流程,无需人工干預。這種方法的主要特點包括單次執行、通用性(適用於任何越獄問題)和社交工程以提高效率。
攻擊策略
攻擊策略包括幾個不同的步驟,攻擊者可以使用預定義的模板將有害提示嵌入到良性上下文中。
**模板生成:**攻擊者首先為攻擊創建一個模板。這是通過向 LLM 提供詳細的提示來實現的,該提示指導模板的生成。此外,該過程還包含一個現有模板作為種子,允許 LLM 對其進行優化和構建。
**模板選擇:**接下來,攻擊者從一組預定義的選項中選擇一個模板。每個模板都經過專門設計,可以將有害內容偽裝在 LLM 看來無害的場景中,從而使攻擊者能夠繞過模型的安全防護措施。
**選擇有害目標提示:**然後,攻擊者創建或選擇一個有害目標提示。此提示旨在逃避 LLM 對有害內容的防禦。
**特定於模板的格式化:**選擇有害提示後,將對其進行特定於模板的格式化。自動化工具(例如正則表達式、基於規則的系統或另一個 LLM)確保了有害提示與模板結構的無縫集成。
**用戶提示生成:**然後將格式化的有害提示嵌入到模板中。此提示表面上看起來無害,旨在欺騙 LLM 處理嵌入的有害內容。
**目標 LLM 並分析響應:**最後,攻擊者將重構的提示提交給目標 LLM。攻擊者分析 LLM 的響應(手動或借助判斷模型),以確定有害內容是否按預期生成並成功繞過了 LLM 的安全防護措施。
實驗結果
實驗結果顯示,SequentialBreak 在各種開源和閉源 LLM 中均取得了顯著的成功率。儘管不同模板和模型之間存在細微差異,但始終如一的高攻擊成功率表明,無論提示的敘述結構如何,LLM 都容易洩露有害內容。
結論
SequentialBreak 是一種新穎且有效的越獄攻擊方法,它利用了大型語言模型中連續提示鏈的注意力機制漏洞。該研究強調了當前 LLM 安全措施中存在的關鍵漏洞,並呼籲開發更強大的防禦策略,以應對日益複雜的 LLM 攻擊。
統計資料
SequentialBreak 在針對 Llama-2、Llama-3、Gemma-2、Vicuna、GPT-3.5 和 GPT-4o 等開源和閉源模型的測試中,攻擊成功率均很高。
在某些模板模型組合中,偽裝的有害提示可能會引起模型的更多關注,從而導致拒絕。
與 PAIR、DeepInception 和 ReneLLM 等基線方法相比,SequentialBreak 的攻擊成功率更高。
OpenAI Moderation API 和 Perplexity Filter 等防禦機制在很大程度上未能標記出 SequentialBreak 攻擊模板。
SmoothLLM 在某些情況下表現更好,尤其是在遊戲環境模板中,但總體而言,其效果較差。
在遊戲環境場景中,隨著序列級別數量的增加,攻擊成功率顯著提高。
將有害提示放置在序列的不同位置會影響攻擊成功率,將其放置在序列的較後位置通常會更有效。