Основные понятия
本文提出了一種名為自動化漸進式紅隊測試 (APRT) 的框架,通過模擬攻擊者,以迭代和漸進的方式,自動地探索和利用大型語言模型 (LLM) 的安全漏洞,從而提高 LLM 的安全性。
導言
大型語言模型 (LLM) 的安全性至關重要,但識別潛在的安全漏洞極具挑戰性。手動紅隊測試雖然有效,但耗時、成本高昂且缺乏可擴展性。自動化紅隊測試 (ART) 提供了一種更具成本效益的替代方案,可以自動生成對抗性提示以暴露 LLM 的安全漏洞。然而,目前的 ART 方法缺乏一個穩健的框架,無法將紅隊測試明確構建為一個可有效學習的任務。
自動化漸進式紅隊測試 (APRT)
為了解決這一差距,本文提出了自動化漸進式紅隊測試 (APRT) 作為一個可有效學習的框架。APRT 利用三個核心模組:一個意圖擴展 LLM,用於生成多樣化的初始攻擊樣本;一個意圖隱藏 LLM,用於製作具有欺騙性的提示;以及一個惡意製造者,用於管理提示的多樣性和過濾無效樣本。這三個模組通過多輪交互共同漸進地探索和利用 LLM 的安全漏洞。
攻擊效果評估指標:攻擊有效率 (AER)
除了框架之外,本文還提出了一種新的指標,即攻擊有效率 (AER),以減輕現有評估指標的局限性。通過測量引出不安全但看似有幫助的回應的可能性,AER 與人類評估結果高度一致。
實驗結果
通過自動和人工評估進行的大量實驗表明,APRT 在開源和閉源 LLM 中均表現出色。具體而言,APRT 能夠有效地從 Meta 的 Llama-3-8B-Instruct 中引出 54% 的不安全但有用的回應,從 GPT-4o(API 訪問)中引出 50%,從 Claude-3.5(API 訪問)中引出 39%,展示了其強大的攻擊能力和跨 LLM 的可遷移性(尤其是從開源 LLM 到閉源 LLM)。
主要貢獻
提出了 APRT,這是一個高效的自動化紅隊測試框架,它以迭代的方式漸進地探索目標 LLM 的安全漏洞。
為了解決攻擊成功率 (ASR) 指標和 GPT API 評估中固有的局限性,本文引入了一種新的指標,稱為攻擊有效率 (AER),它與人工評估具有高度的一致性。
本文對開源和閉源 LLM 進行了廣泛的實驗,證明了 APRT 與強基準相比的優越性能,並展示了其強大的可遷移性。
Статистика
APRT 能夠有效地從 Meta 的 Llama-3-8B-Instruct 中引出 54% 的不安全但有用的回應。
APRT 從 GPT-4o(API 訪問)中引出 50% 的不安全但有用的回應。
APRT 從 Claude-3.5(API 訪問)中引出 39% 的不安全但有用的回應。