核心概念
本文提出了一種名為提示對抗式調整(PAT)的新方法,透過在使用者提示中加入一個經訓練的控制提示作為防護前綴,來提高大型語言模型(LLM)對抗越獄攻擊的穩健性。
摘要
透過提示對抗式調整技術 (PAT) 反制越獄攻擊
這篇研究論文介紹了一種名為提示對抗式調整(PAT)的新方法,旨在增強大型語言模型(LLM)抵抗越獄攻擊的能力,同時維持模型的良性效用。
解決大型語言模型(LLM)容易受到越獄攻擊的問題。
開發一種防禦機制,在不顯著影響模型良性效用的情況下,提高 LLM 對抗此類攻擊的穩健性。
提示對抗式調整(PAT):
受到對抗訓練範式的啟發,PAT 旨在透過將潛在攻擊納入防禦生成過程中來優化防禦性前綴。
**攻擊控制:**旨在誘導模型產生惡意內容。
**防禦控制:**旨在協助模型拒絕惡意請求。
PAT 透過交替更新具有相反輸出目標的攻擊控制和防禦控制,來進行對抗式調整過程。
在推論階段,開發人員將防禦控制作為前綴合併到使用者提示中。
效用維持:
為了確保模型在執行良性任務時仍能保持其效用,PAT 使用良性提示和目標對來優化防禦控制。
這種方法可以平衡模型的穩健性和可用性,有效抵禦越獄攻擊,而不會顯著影響模型在良性任務上的效用。
多模型擴展:
PAT 支援單一和多模型配置。
在多模型設定中,透過整合跨多個模型的損失來使防禦控制更加通用和可遷移。