Priyanshu, A., & Vijay, S. (2024). FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench (Automated Multi-shot Jailbreaks). arXiv preprint arXiv:2408.16163v2.
本研究旨在評估大型語言模型 (LLM) 針對新型多輪對話式攻擊的安全防禦能力,並探討現有安全措施的不足之處。
研究人員開發了一個名為 FRACTURED-SORRY-Bench 的框架,該框架基於 SORRY-Bench 資料集,並採用一種簡單但有效的方法,將有害查詢分解成多個看似無害的子問題,以模擬多輪對話式攻擊。研究人員使用此方法攻擊多個 LLM 模型(GPT-4、GPT-4o、GPT-4o-mini 和 GPT-3.5-Turbo),並分析其攻擊成功率 (ASR) 和意圖傳達的準確性。
研究結果顯示,FRACTURED-SORRY-Bench 框架能顯著提高所有測試模型的攻擊成功率,其中 GPT-3.5-Turbo 的 ASR 增長最為顯著(相較於其原始版本增長了 10.9 倍)。此外,分析結果表明,49.33% 的分解式提示成功傳達了原始的惡意意圖。
FRACTURED-SORRY-Bench 框架的研究結果表明,現有的 LLM 安全措施容易受到多輪對話式攻擊的影響。將有害查詢分解成看似無害的子問題,可以有效繞過現有的安全防禦機制。
本研究突顯了開發更強大的 LLM 安全防禦措施的必要性,這些措施應能理解和評估多輪對話的累積意圖,以有效防禦新型攻擊。
未來研究方向包括開發針對此類攻擊的防禦策略,以及將評估範圍擴展到更廣泛的 LLM 和對話場景。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések