大型語言模型 (LLM) 雖然功能強大,但也容易受到惡意攻擊,例如「越獄攻擊」(jailbreak attacks)。為確保 LLM 在各領域的安全應用,開發有效的防禦機制至關重要。
整合大型語言模型 (LLM) 的應用程式存在著遠端程式碼執行 (RCE) 漏洞的風險,攻擊者可以透過提示注入操控 LLM 產生惡意程式碼,進而控制應用程式伺服器。
雖然大型語言模型 (LLM) 在各種網路安全任務中展現出潛力,但它們的資訊安全意識 (ISA) 仍有待加強,需要採取措施來評估和提高它們在實際應用中提供安全建議的能力。
本文提出了一種在預先部署階段,無需依賴現有數據集,即可開發大型語言模型護欄的靈活方法,並將其應用於檢測離題提示,有效提高模型安全性。
區塊鏈技術具有增強大型語言模型 (LLM) 安全性和安全性的巨大潛力,尤其是在應對資料中毒、提示注入和未經授權的資料洩露等漏洞方面。
大型語言模型 (LLM) 對權威資訊的偏見使其容易受到精心設計的攻擊,這些攻擊利用偽造的引用來繞過安全措施並產生有害內容。
本文提出了一種利用大型語言模型 (LLM) 中轉換器層之間的殘差激活分析來防禦對抗性攻擊的新方法,並通過實驗證明了該方法在不同攻擊場景下的有效性。
本文提出了一種名為「越獄快速回應」的新方法,旨在通過快速識別和應對新型越獄攻擊來減輕大型語言模型的濫用風險。
本文揭露了一種名為 SequentialBreak 的新型攻擊方法,該方法利用惡意提示嵌入良性提示序列中,從而繞過大型語言模型的安全防護措施,使其產生有害內容。
FRACTURED-SORRY-Bench 框架揭示了大型語言模型 (LLM) 面臨的新型多輪對話式攻擊的脆弱性,突顯了開發更強大的 LLM 安全防禦措施的必要性。