核心概念
本文提出了一種基於梯度優化的通用、與情境無關的觸發器,可以精確控制大型語言模型的輸出,對依賴大型語言模型的應用程式,特別是使用大型語言模型工作流程和代理框架的應用程式,構成重大安全風險。
摘要
基於梯度優化的通用、與情境無關的大型語言模型輸出控制觸發器
本文提出了一種針對大型語言模型 (LLM) 的新型攻擊方法,旨在尋找一種通用的、與情境無關的觸發器,以精確控制模型的輸出。這種觸發器具有以下三個特點:
通用性: 無論目標輸出是什麼,觸發器都能有效地發揮作用。
與情境無關: 觸發器在不同的提示情境下都能保持穩健性。
精確控制輸出: 觸發器能夠以高準確度操控 LLM 輸入以產生任何指定的輸出。
提示注入攻擊
提示注入是一種攻擊技術,攻擊者通過精心設計惡意輸入來操控語言模型的輸出,使其忽略原始指令並遵循攻擊者的指令。
基於梯度的對抗性攻擊
基於梯度的演算法已被研究人員用於尋找大型語言模型的對抗性輸入。攻擊者旨在最小化損失函數,以誘導模型產生所需的對抗性輸出。