核心概念
大型語言模型 (LLM) 對權威資訊的偏見使其容易受到精心設計的攻擊,這些攻擊利用偽造的引用來繞過安全措施並產生有害內容。
摘要
這篇研究論文揭露了大型語言模型 (LLM) 中的一個關鍵弱點:它們對權威資訊的固有偏見。雖然這種偏見通常有助於 LLM 產生準確且資訊豐富的內容,但它也為攻擊者創造了一個機會,讓他們可以利用偽造的權威引用來操縱模型,使其產生有害的輸出。
LLM 對權威的偏見
LLM 傾向於優先考慮來自可靠來源的資訊,例如學術論文、信譽良好的網站和專家意見。這種偏見源於它們的訓練資料,這些資料通常包含大量權威資訊。雖然這種對可靠來源的偏好通常是有益的,但它也讓 LLM 面臨著一種稱為「權威偏見」的獨特威脅。
DarkCite 攻擊方法
為了證明這種弱點,研究人員開發了一種名為「DarkCite」的新型越獄攻擊方法。DarkCite 利用 LLM 的權威偏見,透過產生與有害指令相關的目標式權威引用來繞過模型的安全防護。
DarkCite 的運作方式
DarkCite 攻擊分三個階段進行:
風險-引用類型匹配: 攻擊者會使用分類器來判斷與特定風險類型(例如炸彈製造、網路攻擊、金融詐欺)最匹配的權威引用類型。
權威引用內容生成: 一旦確定了最佳引用類型,DarkCite 就會產生與有害指令密切相關的虛假引用。這些引用經過精心設計,看起來像是來自可靠來源,例如學術論文、政府網站或信譽良好的新聞媒體。
危害性評估: 在最後階段,將生成的引用嵌入到提示中,並將其輸入到目標 LLM 中。然後,評估模型的回應,以確定攻擊是否成功誘使模型產生有害內容。
實驗結果和影響
對各種 LLM(包括開源模型和商業模型)進行的實驗表明,DarkCite 在繞過安全措施和產生有害內容方面非常有效。這些發現凸顯了 LLM 中權威偏見的嚴重性,並強調需要採取更強大的防禦措施來防範此類攻擊。
緩解策略
該論文還探討了緩解 DarkCite 攻擊的潛在防禦策略,例如:
輸入驗證: 在將提示輸入 LLM 之前,對其進行嚴格驗證,以檢測和過濾掉潛在的惡意或誤導性內容,包括偽造的引用。
來源意識訓練: 訓練 LLM 不僅要依賴資訊來源,還要批判性地評估資訊來源的可信度和相關性。
對抗訓練: 使用對抗範例訓練 LLM,以增強其對基於權威的攻擊的彈性。
結論
這篇論文揭示了 LLM 中權威偏見的陰暗面,證明了攻擊者如何利用這種偏見來操縱這些模型以產生有害內容。這些發現對 LLM 的安全性和可靠性具有重大影響,特別是在它們越來越多地整合到我們生活的各個方面的時候。需要進一步的研究和開發工作來解決這些弱點,並確保負責任和道德地使用這些強大的技術。
统计
DarkCite 在所有受害者 LLM 中的平均攻擊成功率 (ASR) 最高,達到 66%,與最先進的方法相比提高了約 8%。
DarkCite 在 Llama-2、GPT-3.5-turbo 和 Claude 上的攻擊成功率均優於其他方法,證明了其更廣泛的適用性。
DarkCite 不僅實現了最高的 ASR,而且在受害者模型中最大限度地提高了 token 效率。
在大多數風險類別中,當使用權威引用時,受害者 LLM 更容易產生有害的回應。
在涉及潛在惡意軟體生成的環境中,LLM 更可能接受和信任來自 GitHub 引用的資訊。