核心概念
本文提出了一種名為 UNIGUARD 的新型多模態安全防護機制,旨在增強多模態大型語言模型 (MLLM) 抵抗針對其漏洞的惡意攻擊(例如:越獄攻擊)的穩健性。
研究目標:
本研究旨在解決多模態大型語言模型 (MLLM) 易受惡意攻擊(例如:越獄攻擊)的漏洞問題,提出了一種名為 UNIGUARD 的新型多模態安全防護機制,以增強 MLLM 的安全性和穩健性。
方法:
UNIGUARD 透過為每個模態(例如:圖像和文字)創建專門的安全防護,並考慮它們之間的跨模態交互作用來運作。這些防護措施會在應用於輸入提示後淨化潛在的惡意回應。具體來說,研究人員採用了以下方法:
圖像安全防護:受到少樣本提示學習的啟發,研究人員透過優化尋找附加噪聲(即安全防護),在將其添加到對抗性圖像時,最大程度地降低生成預定義有害語料庫中危險句子的可能性。
文字安全防護:研究人員採用了基於梯度的 Top-K 標記搜索算法,並透過優化尋找後綴修改(即安全防護),以最大程度地降低從 MLLM 生成有害內容的可能性。
主要發現:
UNIGUARD 在抵禦各種惡意攻擊方面表現出顯著的有效性,同時保持了對良性輸入的高準確性。
針對 LLAVA 模型的攻擊成功率顯著降低,同時在視覺問答方面僅產生很小的性能安全權衡。
為 LLAVA 開發的安全防護可以轉移到其他 MLLM,包括開源模型(如 MiniGPT-4 和 InstructBLIP)以及專有模型(如 Gemini Pro 和 GPT-4V),這突出了該方法在不同模型和架構中的普遍適用性。
主要結論:
UNIGUARD 為增強 MLLM 抵抗越獄攻擊的穩健性提供了一種有前景的解決方案。透過其多模態防禦策略,UNIGUARD 有效地減輕了與 MLLM 部署相關的風險,為更安全、更值得信賴的基於 MLLM 的應用鋪平了道路。
意義:
這項研究對於推進 MLLM 的安全性和穩健性具有重要意義。隨著 MLLM 在各種領域的應用日益增多,確保其免受惡意攻擊至關重要。UNIGUARD 提供了一種實用的解決方案,可以增強這些模型的防禦能力,為其在現實世界中的可靠部署鋪平道路。
局限性和未來研究方向:
雖然 UNIGUARD 在跨 MLLM 方面表現出顯著的可遷移性,但針對特定模型定制安全防護可以進一步提高防禦能力。
UNIGUARD 目前設計用於保護具有圖像和文字輸入的 MLLM。將其功能擴展到支持其他模態(例如:音頻和視頻)將擴大其適用性。
未來研究可以進一步探索在降低模型輸出毒性和保持模型性能之間取得平衡。
統計資料
UNIGUARD 將 LLAVA 模型上的攻擊成功率降低了近 55%。
在 A-OKVQA 視覺問答數據集上使用 UNIGUARD 後,準確率損失為 0.2% 到 5.9%。
GPT-4V 的嚴格內容過濾算法預先過濾了大約 30% 的對抗性提示,在剩下的提示中只有 10% 導致了成功的越獄攻擊。