本文提出了一種名為 GASP 的新型框架,該框架可以高效生成對抗性後綴,用於破解大型語言模型的安全防護機制,同時保持人類可讀性,並且在完全黑盒環境中運作。
大型語言模型(LLM)雖然功能強大,但也面臨著嚴重的安全、隱私和倫理威脅,尤其是在作為代理人使用時,需要新的分類法和防禦策略來應對這些挑戰。
長文本大型語言模型在處理安全議題方面存在顯著缺陷,需要進一步的研究和改進。
本研究提出了一個名為 HarmLevelBench 的新型資料集,用於評估大型語言模型在不同危害級別輸入下的安全性,並探討量化技術對模型穩健性和校準的影響。
透過利用大型語言模型偏離先前語境的傾向,研究人員發現了一種名為「DAGR」的新型破解技術,該技術能有效繞過安全限制並產生有害輸出。
將大型語言模型 (LLM) 與外部工具整合,雖然顯著增強了模型的功能,但也引入了新的攻擊面,對使用者隱私和安全構成根本威脅。
即使是最先進的大型語言模型 (LLM) 仍然容易受到基於編碼的攻擊,特別是透過使用字串組合的越獄攻擊。
本研究發現,多種開源聊天語言模型的拒絕有害指令的行為,都與模型內部單一方向的激活子空間有關,並以此提出了一種新的白盒攻擊方法,可以有效繞過模型的安全防護機制。
本文提出了一種名為「帶剪枝攻擊樹」(TAP)的自動化方法,用於生成能破解黑盒大型語言模型的攻擊提示,並探討了大型語言模型安全性的問題。
基於大型語言模型的代理人容易受到各種形式的後門攻擊,包括傳統大型語言模型攻擊中未出現的新形式,這對其在現實世界中的應用構成嚴重威脅。