區塊鏈技術具有增強大型語言模型 (LLM) 安全性和安全性的巨大潛力,尤其是在應對資料中毒、提示注入和未經授權的資料洩露等漏洞方面。
大型語言模型 (LLM) 對權威資訊的偏見使其容易受到精心設計的攻擊,這些攻擊利用偽造的引用來繞過安全措施並產生有害內容。
本文提出了一種利用大型語言模型 (LLM) 中轉換器層之間的殘差激活分析來防禦對抗性攻擊的新方法,並通過實驗證明了該方法在不同攻擊場景下的有效性。
本文提出了一種名為「越獄快速回應」的新方法,旨在通過快速識別和應對新型越獄攻擊來減輕大型語言模型的濫用風險。
本文揭露了一種名為 SequentialBreak 的新型攻擊方法,該方法利用惡意提示嵌入良性提示序列中,從而繞過大型語言模型的安全防護措施,使其產生有害內容。
FRACTURED-SORRY-Bench 框架揭示了大型語言模型 (LLM) 面臨的新型多輪對話式攻擊的脆弱性,突顯了開發更強大的 LLM 安全防禦措施的必要性。
直接從大型語言模型中移除有害知識(安全地遺忘)比主流的基於監督式微調的安全防禦方法更有效地防禦越獄攻擊,因為它可以推廣到未見過的攻擊提示和有害問題。
大型語言模型 (LLM) 在機器人控制方面存在潛在的物理安全風險,特別是在無人機控制方面。雖然 LLM 在程式碼產生和任務執行方面表現出色,但在關鍵的安全面向卻表現不佳,突顯了在開發用於機器人控制的人工智慧系統時需要採取平衡的方法。
大型語言模型 (LLM) 的應用日益普及,確保其安全性至關重要,然而,現有研究主要關注模型本身的安全,忽略了整個 LLM 供應鏈中潛藏的風險。
大型語言模型用於偵測有害內容時,容易受到標記分割偏差的影響,而 Emoji 攻擊正是利用此弱點,透過在文字中插入 Emoji 來誤導判斷型大型語言模型,使其將有害內容判定為安全內容。